資料煉金術與機器學習　急速成長的自駕車技術

要衡量自駕車科技的進展，一項重要指標就是所謂的接手率（disengagement rate），也就是駕駛員必須關閉自駕系統、接手開車的平均頻率。在報告涵蓋的期間（2019年12月到2020年11月，包括部分時間由於疫情封城而必須暫停自駕測試），谷歌旗下子公司Waymo的自駕車，在加州公路行駛了超過九十六萬公里，而平均而言，駕駛員每超過四萬八千公里才必須接手駕駛一次。

這是很巨大的進步。短短五年前，Waymo自駕車能夠無人接手行駛的距離，還不到三千三百公里。

Waymo的成績領先群倫，無論是通用汽車的Cruise、亞馬遜旗下的Zoox，或是中國的AutoX、小馬智行（Pony.ai）等雄心勃勃的新創企業，都只能瞠乎其後。Lyft（來福車）和蘋果的自駕車，平均都是行駛幾百公里就需要有人接手。至於在 2019年成績慘不忍睹的特斯拉，在2020年甚至就不提供報告了。

但更能窺見端倪的一點在於：那些經驗老到的車廠，包括各個知名的德、日品牌在內，表現出來的成績都遠遠落後，不到一百六十公里就得有人接手駕駛，而且整年度的行駛距離也不過幾百公里。有鑑於結果如此慘烈，這些車廠有可能最後都得接受採用 Waymo系統。

百度Apollo急起直追

又或者，他們也可以期待谷歌的另一個對手——雖然這個候選者是最近才引起一些汽車專家的注意，但是谷歌早已了然於心，因為這個對手在過去就曾經複製了谷歌的技術與商業模式：百度，中國的搜尋引擎巨頭。

至少自 2017年開始，百度就已投入大量資金，研發Apollo（阿波羅）自駕車計畫。使用 Apollo 平臺的車輛已經在中國公路上測試行駛超過一千萬公里，另外也在加州有小型車隊開始測試。2019年，據稱Apollo自駕車平均行駛超過二萬四千公里，才需要有人接手駕駛。但有專家質疑Apollo數據的可信度，認為百度之所以能達到這項亮眼的數字，主要是靠著在加州的高速公路上試駕，而不是在城市的街道上駕駛；在城市裡駕車更為困難，人類駕駛通常也必須更常介入接手。（百度未能報告2020年的資料數據。）

但無可爭議的是，Waymo和Apollo系統的改進速度遠遠超越傳統競爭對手。這點的背後有個重要原因：谷歌與百度成功打造出一種技術環境，於是比起競爭對手，他們的車輛更能產生並運用寶貴的試駕訓練資料。每多行駛一公里、每多一次由駕駛員接手、又或是每多一次在未接手的情況下成功應對棘手的路況，這些自駕車都能從中學習，接著就能夠走得更遠、更輕鬆的產生新資料數據。

2017年，谷歌自駕車在加州行駛超過五十六萬公里，隔年就超過一百六十萬公里，再隔年來到約二百四十萬公里。他們的方法正在得到豐厚的回報，現在能夠投資打造更大的車隊，同時根據測試車隊蒐集的真實資料數據，打造出一個又一個的虛擬世界。

在這些模擬生成的世界中，能讓自駕車的數位分身，每年試駕幾十億公里、甚至上百億公里；就谷歌的案例而言，這是得益於旗下機器學習公司DeepMind 的技術協助。來自加州的資料，還只是谷歌整個自駕計畫的一小部分；如今在全美二十五個城市的公路上，都能見到谷歌自駕車的身影，其中主要是在陽光普照的亞利桑納州鳳凰城。部分車輛已經能夠做為真實環境中的自駕計程車，不再需要配置駕駛員。

與此同時，百度也從2020年9月開始，在北京提供名為Apollo Go的實驗性全自動計程車服務。車輛無需人力協助，就能夠自行上路，這已經是中世紀煉金術士做夢都夢不到的成就門檻。而自駕車也正在成為自動學習的車輛，能夠自行產生原始數據，轉為可機讀資訊，讓自己更進步。

有自學能力的機器

這種資料煉金術正是機器學習領域的巔峰，是近年來人工智慧（AI）發展最重要的領域。儘管AI議題已經被炒得太過火熱，但目前對於機器學習的影響力仍然是受到低估的。對於會從資料中學習的系統而言，假如在經過初始訓練階段之後，能夠自行產生資料、自行改善演算法、自行改進各種應用，就等於能夠將「創新」這件事的部分流程自動化。我們會在下一章深入討論這對於市場集中度的意義，而目前而言，需要瞭解的是機器學習會如何使資訊不對稱加劇。系統如果能自行從資料中學習，相關供應商與業者就更能得到重大優勢。但對於用戶來說，資訊不對稱則會加深依賴度，並非好事；至於競爭對手，也就幾乎不可能再趕上領先的業者。

谷歌和百度的自駕車發展，可說是資料煉金術格外引人矚目的案例。但只要是用數位引擎來駕馭機器學習的各種應用，幾乎都能看到類似的情況。像是我們每次在搜尋引擎打入想搜尋的關鍵詞，都會讓這套搜尋系統更瞭解我們。每次點擊某項結果，就等於是向搜尋引擎提供意見回饋，讓它知道我們覺得A資訊與我們很相關、很重要，B資訊不相關、並不重要。就算我們什麼都不去點，這當然也會是個有價值的訊號。只要我們與無數其他人愈常使用某套搜尋系統進行搜尋，它就能把演算法校正得更準確，也就更有可能為我們（和所有其他人）提供切合需求的結果。

各大線上購物業者推薦商品的演算法，大致上都遵循相同的原則，其實就是在進行某種產品的搜尋，而亞馬遜、歐卡多（Ocado，英國網購商）、Flipkart（印度版的亞馬遜）或阿里巴巴等購物網站，也都十分樂意替我們效勞。只要愈多顧客願意接受這些建議（又或是有愈多人明確拒絕），業者的電腦就愈能透過模式辨識與機器學習，來調整品項、計算價格、安排行銷。

基於機器學習的癌症診斷軟體，也能透過每次看診結束、將結果再回頭輸入系統，透過機器學習而不斷改進。至於信用卡業者的盜刷檢測系統，也能從每筆擋下或授權的可疑交易當中學習。遭到盜刷的持卡人，當然會火冒三丈；但如果是誤把誠實的持卡人當成盜刷份子，讓他在現場怎樣都刷不過，又會引來另一種怒氣沖天。銀行的信用評分系統如果擁有愈多還款違約的資料，也就愈能準確預測特定貸款人準時還錢的機率。

就語音辨識軟體而言，如果民眾愈常使用、而且愈常去修正其中的錯誤，最後就愈能準確辨識各種口語詞彙。智慧工廠的機器，如果彼此之間有愈多互動成為資料紀錄，中央控制軟體就能夠累積愈多學習經驗，整座工廠的效率也就愈高。法律機器人看過愈多合約，我們也就愈有可能省下找律師諮詢的昂貴費用。原因為何？因為現代電腦系統與人類學習的方式十分相似，都是「蒐集資料、進行評估，再以基於資料的預測，得出正確的結論」。而如果讓意見回饋的流程形成內部迴圈，就能讓資料蒐集與學習過程都自動化。

資訊科技引發了一場大型而深遠的經濟權力轉移，而這種從資料中學習的系統所應用的資料煉金術原理，還只是這場大型權力轉移的其中一小部分而已。

本文節錄自《資料煉金術》，由天下文化出版授權轉載。

百度Apollo急起直追

有自學能力的機器

推薦閱讀