鄭文皇:自駕車的挑戰不只技術,還有資料

鴻海集團旗下鴻華先進科技所開發出首款電動巴士Model T,今日(3/3)在高雄交車。隨著科技的發展,在許多地方已可見到自動駕駛的落地應用,例如原為Google 自駕車專案的Waymo已在美國上市並實際上路,德國則有無人駕駛的巴士,甚至在中國深圳也出現了可用於商品配送的無人駕駛車。目前在全球蓬勃發展的自駕車技術將會怎麼發展?關鍵核心AI技術又哪些侷限呢?

國立陽明交通大學電子研究所特聘教授、產學創新研究學院智能研究所所長鄭文皇3月3日在鴻海研究院所與人工智慧科技基金會舉辦的AI Security論壇上,以「自駕車大挑戰:從“感知智能”走向“認知智能”」為題,詳細說明自駕車在AI Security上的大挑戰。

誰能取得更多更好的資料,將更有優勢

一般認知的自駕技術可分為三個部分:Sense、Perceive及Act。鄭文皇提到,Sense就是利用各種不同的sensor,在環境中持續地蒐集訊息。Perceive則是定義、偵測已存在的物件,甚至進行分類。有了這些資訊之後,就能在自駕車上進行反應和回饋,這就是所謂的Act。

鄭文皇說,除了感知任務本身以外,過去自駕車領域也一直努力取得足夠量的資料以訓練的AI系統。他解釋,一般自駕車的感知智能被定義為所謂的視覺任務,不管做什麼感知系統,現在所仰賴的技術都是機器學習,準確來說是機器學習中的深度學習(Deep Learning),這個技術也被認為需要擁有相當大量的資料,才能提升效能。此外,更重要的是對資料的掌握,鄭文皇提到,在建立所謂AI化商業產品時,會有品質上的落差,這個落差主要來自於資料的取得。她認為,這與公司或產業的能力有關,例如中小型企業所能搜集到的資料量較少;而產業巨人所能蒐集到的資料就較多,也讓它可以做一個比較好的AI產品。

以Waymo團隊近期剛釋出的新技術:「Block-NeRF」為例,NeRF這個影像合成技術約出現於1920年,和常見的GaN或是DeepFake的最大差別就是,可以從沒看過的視角上合出物件圖。從這裡可以看出Waymo的企圖就是建立一個場景,然後以不同的條件生成畫面。換句話說,大家比拚的其實不只是技術,還有如何獲得足夠資料。另一方面,機器學習的演算法則與自駕車的安全性有關,特別是深度學習演算法其實是有侷限的,因此我們把它稱為「Lack of Trust」。

Deep Learning的AI很好騙?

近幾年,有許多論文或報導都曾討論過「Deep Learning的AI系統是不是很好騙?」鄭文皇說,這是一個視覺感知上的大問題。他以一個Adobe Research的研究員所發表的論文為例,該篇論文中用了一個例子說明:「為什麼深度學習系統其實還有很多的問題?」

假設今天訓練一個鳥類偵測器,將一張印有清晰鳥影的圖片讓偵測器辨識,偵測器會說畫面有一隻鳥的機率是86%;但一張模樣不清晰的圖片,回答鳥類的機率就大幅下降成32%,這個結果十分合理。但是,當我們又提供新的一組圖片,這次兩張照片看起來差異不大,卻還是得到十分懸殊比例的回答,這又是什麼原因呢?鄭文皇指出,雖然看起來一樣,但仔細檢視會發現其中一張圖的空間有點偏移,對角線的方向也有點差異。人眼雖然看不出差異,但卻直接影響辨識器的效能,最大的問題就在深度學習系統本身一個很小的Component。

在CNN中包含幾個基本運算,如Convolution、卷積、Pooling、Fully Connected等部分,其中,用來縮小圖片大小的Pooling常被忽略。如果Pooling沒做好,導致數值的起始點跑掉的話,就會發生嚴重錯誤。

此外,在所謂的「對抗式攻擊」上,只要將訓練圖片加上雜訊,就可能影響圖片判斷結果。這些結果如果出現在自駕車上,很有可能在道路上,將速限80的圖片看成停止,或是在高速公路上,將速限120的指示誤認成30,因而在公路上急速減速,就極有可能發生嚴重車禍。

對抗式攻擊也不只限於利用視覺訊號的調整,影響影響它的辨識結果;透過形狀的改變,也會得到不同的結果。有些攻擊儘管人眼可以清楚辨識,但是機器卻完全認不出來。這些來自真實世界裡的攻擊,鄭文皇也是試著跟自己的研究生在電腦視覺頂尖會議上面討論,利用Adversarial Patch這個被稱作「對抗式攻擊的補丁,只在原來畫面上貼上一個小小的Mark就能改變辨識結果,證明對抗式攻擊的補丁是確實存在的一個技術。

不只偵測物件,而是偵測行為的「認知智能」

此外,認知智能除了上述的攻擊,如何學習與辨識也是一個很大的問題。舉例,當人工智慧模型沒有看過麋鹿時,可能將其辨識成一堆人。顯然這時候就會產生一些問題,例如把這一種沒看過的資料,稱為 ”Out-of-distrbution object”,也就是說不存在於原來所學到的機率分布、物件分布裡面的資料,當我們在訓練交通號誌牌,可能會是比較乾淨的物件,但實際上就不可能乾乾淨淨,這種就會是所謂的Out-of-distrbution。

鄭文皇認為,除了認知智能,在感知智能上也還有很大的問題,除了感知來需要理解。他解釋,理解包括許多認知上的分析、人與車、人與人之間互動行為的描述,甚至視覺的預測等。從更高的角度來說,希望能讓人工智慧系統能做到像人一樣,有共同能力認識一個交通場景,並能延伸到不同的應用,甚至視覺導航自動控制,人們可以用自然的方式和車輛來互動,指令可能是:「前面有人,請你往右邊閃開之類的」系統就可以聽得懂,這就是有具備「認知能力」。

鄭文皇提到,除了Commonsense Reasoning這個近年來一直被討論的議題,Person in Context也是另一個挑戰。AI系統不只是偵測物件,而是找出物件跟物件之間的行為,例如人可以坐在椅子上、人可以拿手機、手機可以被人Call等等互動關係。鄭文皇認為,對下一代資料科學來說,認知智能是一個很重要的關鍵技術,也相對具有挑戰性。

精彩演講內容: