資料煉金術與機器學習 急速成長的自駕車技術

要衡量自駕車科技的進展,一項重要指標就是所謂的接手率(disengagement rate),也就是駕駛員必須關閉自駕系統、接手開車的平均頻率。在報告涵蓋的期間(2019年12月到2020年11月,包括部分時間由於疫情封城而必須暫停自駕測試),谷歌旗下子公司Waymo的自駕車,在加州公路行駛了超過九十六萬公里,而平均而言,駕駛員每超過四萬八千公里才必須接手駕駛一次。

這是很巨大的進步。短短五年前,Waymo自駕車能夠無人接手行駛的距離,還不到三千三百公里。

Waymo的成績領先群倫,無論是通用汽車的Cruise、亞馬遜旗下的Zoox,或是中國的AutoX、小馬智行(Pony.ai)等雄心勃勃的新創企業,都只能瞠乎其後。Lyft(來福車)和蘋果的自駕車,平均都是行駛幾百公里就需要有人接手。至於在 2019年成績慘不忍睹的特斯拉,在2020年甚至就不提供報告了。

但更能窺見端倪的一點在於:那些經驗老到的車廠,包括各個知名的德、日品牌在內,表現出來的成績都遠遠落後,不到一百六十公里就得有人接手駕駛,而且整年度的行駛距離也不過幾百公里。有鑑於結果如此慘烈,這些車廠有可能最後都得接受採用 Waymo系統。

百度Apollo急起直追

又或者,他們也可以期待谷歌的另一個對手——雖然這個候選者是最近才引起一些汽車專家的注意,但是谷歌早已了然於心,因為這個對手在過去就曾經複製了谷歌的技術與商業模式:百度,中國的搜尋引擎巨頭。

至少自 2017年開始,百度就已投入大量資金,研發Apollo(阿波羅)自駕車計畫。使用 Apollo 平臺的車輛已經在中國公路上測試行駛超過一千萬公里,另外也在加州有小型車隊開始測試。2019年,據稱Apollo自駕車平均行駛超過二萬四千公里,才需要有人接手駕駛。但有專家質疑Apollo數據的可信度,認為百度之所以能達到這項亮眼的數字,主要是靠著在加州的高速公路上試駕,而不是在城市的街道上駕駛;在城市裡駕車更為困難,人類駕駛通常也必須更常介入接手。(百度未能報告2020年的資料數據。)

但無可爭議的是,Waymo和Apollo系統的改進速度遠遠超越傳統競爭對手。這點的背後有個重要原因:谷歌與百度成功打造出一種技術環境,於是比起競爭對手,他們的車輛更能產生並運用寶貴的試駕訓練資料。每多行駛一公里、每多一次由駕駛員接手、又或是每多一次在未接手的情況下成功應對棘手的路況,這些自駕車都能從中學習,接著就能夠走得更遠、更輕鬆的產生新資料數據。

2017年,谷歌自駕車在加州行駛超過五十六萬公里,隔年就超過一百六十萬公里,再隔年來到約二百四十萬公里。他們的方法正在得到豐厚的回報,現在能夠投資打造更大的車隊,同時根據測試車隊蒐集的真實資料數據,打造出一個又一個的虛擬世界。

在這些模擬生成的世界中,能讓自駕車的數位分身,每年試駕幾十億公里、甚至上百億公里;就谷歌的案例而言,這是得益於旗下機器學習公司DeepMind 的技術協助。來自加州的資料,還只是谷歌整個自駕計畫的一小部分;如今在全美二十 五個城市的公路上,都能見到谷歌自駕車的身影,其中主要是在陽光普照的亞利桑納州鳳凰城。部分車輛已經能夠做為真實環境中的自駕計程車,不再需要配置駕駛員。

與此同時,百度也從2020年9月開始,在北京提供名為Apollo Go的實驗性全自動計程車服務。車輛無需人力協助,就能夠自行上路,這已經是中世紀煉金術士做夢都夢不到的成就門檻。而自駕車也正在成為自動學習的車輛,能夠自行產生原始數據,轉為可機讀資訊,讓自己更進步。

有自學能力的機器

這種資料煉金術正是機器學習領域的巔峰,是近年來人工智慧(AI)發展最重要的領域。儘管AI議題已經被炒得太過火熱,但目前對於機器學習的影響力仍然是受到低估的。對於會從資料中學習的系統而言,假如在經過初始訓練階段之後,能夠自行產生資料、自行改善演算法、自行改進各種應用,就等於能夠將「創新」這件事的部分流程自動化。我們會在下一章深入討論這對於市場集中度的意義,而目前而言,需要瞭解的是機器學習會如何使資訊不對稱加劇。系統如果能自行從資料中學習,相關供應商與業者就更能得到重大優勢。但對於用戶來說,資訊不對稱則會加深依賴度,並非好事;至於競爭對手,也就幾乎不可能再趕上領先的業者。

谷歌和百度的自駕車發展,可說是資料煉金術格外引人矚目的案例。但只要是用數位引擎來駕馭機器學習的各種應用,幾乎都能看到類似的情況。像是我們每次在搜尋引擎打入想搜尋的關鍵詞,都會讓這套搜尋系統更瞭解我們。每次點擊某項結果,就等於是向搜尋引擎提供意見回饋,讓它知道我們覺得A資訊與我們很相關、很重要,B資訊不相關、並不重要。就算我們什麼都不去點,這當然也會是個有價值的訊號。只要我們與無數其他人愈常使用某套搜尋系統進行搜尋,它就能把演算法校正得更準確,也就更有可能為我們(和所有其他人)提供切合需求的結果。

各大線上購物業者推薦商品的演算法,大致上都遵循相同的原則,其實就是在進行某種產品的搜尋,而亞馬遜、歐卡多(Ocado,英國網購商)、Flipkart(印度版的亞馬遜)或阿里巴巴等購物網站,也都十分樂意替我們效勞。只要愈多顧客願意接受這些建議(又或是有愈多人明確拒絕),業者的電腦就愈能透過模式辨識與機器學習,來調整品項、計算價格、安排行銷。

基於機器學習的癌症診斷軟體,也能透過每次看診結束、將結果再回頭輸入系統,透過機器學習而不斷改進。至於信用卡業者的盜刷檢測系統,也能從每筆擋下或授權的可疑交易當中學習。遭到盜刷的持卡人,當然會火冒三丈;但如果是誤把誠實的持卡人當成盜刷份子,讓他在現場怎樣都刷不過,又會引來另一種怒氣沖天。銀行的信用評分系統如果擁有愈多還款違約的資料,也就愈能準確預測特定貸款人準時還錢的機率。

就語音辨識軟體而言,如果民眾愈常使用、而且愈常去修正其中的錯誤,最後就愈能準確辨識各種口語詞彙。智慧工廠的機器,如果彼此之間有愈多互動成為資料紀錄,中央控制軟體就能夠累積愈多學習經驗,整座工廠的效率也就愈高。法律機器人看過愈多合約,我們也就愈有可能省下找律師諮詢的昂貴費用。原因為何?因為現代電腦系統與人類學習的方式十分相似,都是「蒐集資料、進行評估,再以基於資料的預測,得出正確的結論」。而如果讓意見回饋的流程形成內部迴圈,就能讓資料蒐集與學習過程都自動化。

資訊科技引發了一場大型而深遠的經濟權力轉移,而這種從資料中學習的系統所應用的資料煉金術原理,還只是這場大型權力轉移的其中一小部分而已。

本文節錄自《資料煉金術》,由天下文化出版授權轉載。