鄭文皇：自駕車的挑戰不只技術，還有資料

鴻海集團旗下鴻華先進科技所開發出首款電動巴士Model T，今日（3/3）在高雄交車。隨著科技的發展，在許多地方已可見到自動駕駛的落地應用，例如原為Google 自駕車專案的Waymo已在美國上市並實際上路，德國則有無人駕駛的巴士，甚至在中國深圳也出現了可用於商品配送的無人駕駛車。目前在全球蓬勃發展的自駕車技術將會怎麼發展？關鍵核心AI技術又哪些侷限呢？

國立陽明交通大學電子研究所特聘教授、產學創新研究學院智能研究所所長鄭文皇3月3日在鴻海研究院所與人工智慧科技基金會舉辦的AI Security論壇上，以「自駕車大挑戰：從“感知智能”走向“認知智能”」為題，詳細說明自駕車在AI Security上的大挑戰。

誰能取得更多更好的資料，將更有優勢

一般認知的自駕技術可分為三個部分：Sense、Perceive及Act。鄭文皇提到，Sense就是利用各種不同的sensor，在環境中持續地蒐集訊息。Perceive則是定義、偵測已存在的物件，甚至進行分類。有了這些資訊之後，就能在自駕車上進行反應和回饋，這就是所謂的Act。

鄭文皇說，除了感知任務本身以外，過去自駕車領域也一直努力取得足夠量的資料以訓練的AI系統。他解釋，一般自駕車的感知智能被定義為所謂的視覺任務，不管做什麼感知系統，現在所仰賴的技術都是機器學習，準確來說是機器學習中的深度學習（Deep Learning），這個技術也被認為需要擁有相當大量的資料，才能提升效能。此外，更重要的是對資料的掌握，鄭文皇提到，在建立所謂AI化商業產品時，會有品質上的落差，這個落差主要來自於資料的取得。她認為，這與公司或產業的能力有關，例如中小型企業所能搜集到的資料量較少；而產業巨人所能蒐集到的資料就較多，也讓它可以做一個比較好的AI產品。

以Waymo團隊近期剛釋出的新技術：「Block-NeRF」為例，NeRF這個影像合成技術約出現於1920年，和常見的GaN或是DeepFake的最大差別就是，可以從沒看過的視角上合出物件圖。從這裡可以看出Waymo的企圖就是建立一個場景，然後以不同的條件生成畫面。換句話說，大家比拚的其實不只是技術，還有如何獲得足夠資料。另一方面，機器學習的演算法則與自駕車的安全性有關，特別是深度學習演算法其實是有侷限的，因此我們把它稱為「Lack of Trust」。

Deep Learning的AI很好騙？

近幾年，有許多論文或報導都曾討論過「Deep Learning的AI系統是不是很好騙？」鄭文皇說，這是一個視覺感知上的大問題。他以一個Adobe Research的研究員所發表的論文為例，該篇論文中用了一個例子說明：「為什麼深度學習系統其實還有很多的問題？」

假設今天訓練一個鳥類偵測器，將一張印有清晰鳥影的圖片讓偵測器辨識，偵測器會說畫面有一隻鳥的機率是86%；但一張模樣不清晰的圖片，回答鳥類的機率就大幅下降成32%，這個結果十分合理。但是，當我們又提供新的一組圖片，這次兩張照片看起來差異不大，卻還是得到十分懸殊比例的回答，這又是什麼原因呢？鄭文皇指出，雖然看起來一樣，但仔細檢視會發現其中一張圖的空間有點偏移，對角線的方向也有點差異。人眼雖然看不出差異，但卻直接影響辨識器的效能，最大的問題就在深度學習系統本身一個很小的Component。

在CNN中包含幾個基本運算，如Convolution、卷積、Pooling、Fully Connected等部分，其中，用來縮小圖片大小的Pooling常被忽略。如果Pooling沒做好，導致數值的起始點跑掉的話，就會發生嚴重錯誤。

此外，在所謂的「對抗式攻擊」上，只要將訓練圖片加上雜訊，就可能影響圖片判斷結果。這些結果如果出現在自駕車上，很有可能在道路上，將速限80的圖片看成停止，或是在高速公路上，將速限120的指示誤認成30，因而在公路上急速減速，就極有可能發生嚴重車禍。

對抗式攻擊也不只限於利用視覺訊號的調整，影響影響它的辨識結果；透過形狀的改變，也會得到不同的結果。有些攻擊儘管人眼可以清楚辨識，但是機器卻完全認不出來。這些來自真實世界裡的攻擊，鄭文皇也是試著跟自己的研究生在電腦視覺頂尖會議上面討論，利用Adversarial Patch這個被稱作「對抗式攻擊的補丁，只在原來畫面上貼上一個小小的Mark就能改變辨識結果，證明對抗式攻擊的補丁是確實存在的一個技術。

不只偵測物件，而是偵測行為的「認知智能」

此外，認知智能除了上述的攻擊，如何學習與辨識也是一個很大的問題。舉例，當人工智慧模型沒有看過麋鹿時，可能將其辨識成一堆人。顯然這時候就會產生一些問題，例如把這一種沒看過的資料，稱為 ”Out-of-distrbution object”，也就是說不存在於原來所學到的機率分布、物件分布裡面的資料，當我們在訓練交通號誌牌，可能會是比較乾淨的物件，但實際上就不可能乾乾淨淨，這種就會是所謂的Out-of-distrbution。

鄭文皇認為，除了認知智能，在感知智能上也還有很大的問題，除了感知來需要理解。他解釋，理解包括許多認知上的分析、人與車、人與人之間互動行為的描述，甚至視覺的預測等。從更高的角度來說，希望能讓人工智慧系統能做到像人一樣，有共同能力認識一個交通場景，並能延伸到不同的應用，甚至視覺導航自動控制，人們可以用自然的方式和車輛來互動，指令可能是：「前面有人，請你往右邊閃開之類的」系統就可以聽得懂，這就是有具備「認知能力」。

鄭文皇提到，除了Commonsense Reasoning這個近年來一直被討論的議題，Person in Context也是另一個挑戰。AI系統不只是偵測物件，而是找出物件跟物件之間的行為，例如人可以坐在椅子上、人可以拿手機、手機可以被人Call等等互動關係。鄭文皇認為，對下一代資料科學來說，認知智能是一個很重要的關鍵技術，也相對具有挑戰性。

精彩演講內容：

誰能取得更多更好的資料，將更有優勢

Deep Learning的AI很好騙？

不只偵測物件，而是偵測行為的「認知智能」

推薦閱讀