與AI對話 蔡宗翰:開發台灣人專用的AI語言模型是台灣人的責任
本月人物主題邀請到中央大學資工系教授蔡宗翰,為我們分享當今自然語言處理的發展,以及未來五年的想像,同時也要與讀者分享如何讓自己對人文的強烈興趣與熱愛的資訊工程研究產生連結,開啟一場人類與AI的對話過程。
蔡宗翰現任職國立中央大學資訊工程學系教授,同時也是中央研究院人社中心研究員,不僅鑽研人工智慧運用於人類語言的理解與生成,研究領域十分多元,包括生物醫學、歷史等領域皆有涉略,又因愛好寫詩與文章,而被學生稱作「AI界李白。」
在他的部落格中,可以看到他以數位人文的方式為白蛇傳、聖經等文學與歷史典故,帶來新的研究視角。他也嘗試透過數位工具的幫助,協助人文研究找到更有效率的研究方法,例如,透過程式的幫助協助歷史文獻標註,讓以往需要耗費年載才能完成的地名或人名標註時間,縮短至一個月就能完成,不僅減少作業時間,還能擴大研究範圍。
透過跨語言處理 為中英文使用者架一座溝通橋樑
除了數位與人文的連結,蔡宗翰教授也鑽研於讓電腦理解人類語言的技術,也就是自然語言處理技術,該技術的應用層面極廣,包括對話機器人、自動翻譯系統、輿情偵測系統等。蔡宗翰的實驗室中主要有五大研究領域,分別是對話系統、跨語言處理、數位人文、生醫文獻探勘、醫學影像辨識,主要研究以深度學習人工智慧模型為基礎,結合長期發展的自動斷詞、專有名詞辨識、關聯性擷取等前處理技術。
其中,蔡宗翰最有興趣的研究方向之一,就是將兩種不同語言的知識概念做連結。如果這樣的技術能做的好,不管是學習另一種語言、閱讀其他語言的文章、或是與其他語言的使用者進行溝通,效率與精準度都將大幅提升。基於最多潛在用戶的需求,蔡宗翰將研究範圍設定在英文與中文知識概念的對應上。英文絕大多數的知識概念在英文維基百科上都可以找到,中文則主要位於百度百科。雖然兩個百科都含有上千萬條條目,規模也最為可觀,但兩者的條目間卻缺乏連結。當2013年蔡宗翰開始從事這項研究時,除克服缺乏訓練模型用的標註資料集的問題,也運用了當時幾種常用的技術,如資訊檢索、字串相似度比對、主題模型、文章類別向量、上位詞對應……等等,用於支持向量機模型做為特徵,成功地完成了第一代英文維基—中文百度條目對應技術。描述第一代技術的論文也成功地為自然語言處理頂級會議—2014國際計算語言學年會(The Association for Computational Linguistics,簡稱ACL)所接受。至最新一代發表於頂級會議2020全球網際網路會議(WWW)以及正在審查中的一篇期刊論文,已經直接使用深度學習框架,不需要再抽取主題與特徵,大幅降低發展成本。該成果目前在英文維基和中文百度的概念連結上,已達到八成的準確率。「我們想創造一個彈性且能輕鬆套用於不同語言間的模式,自動對應不同語言的概念,不論這概念是出現哪一種線上百科上。」蔡宗翰說,未來預計搭配文章內的超連結,利用圖神經網路算出兩條目的關聯性,幫助機器自動判斷如何連結。
開發台灣人專用AI語言模型是台灣人的責任
提到目前自然語言處理的發展,Google在該技術領域中佔有極高的領導地位,其所提出的BERT更是近來備受矚目的演算法;另一方面,中國憑藉著大企業的支持,也已發展出很好的AI語言模型,而台灣是否也有這樣的能量呢?
對此,蔡宗翰認為,Google的最大優勢是運算資源充沛,因為現在以Transformer(一種自然語言處理模型)為基礎的預訓練模型,其效能與預訓練時使用的語料大小及層數成正相關,因此,Google能將所有的中文語料拿來做預訓練。但是,對於台灣用戶的各種使用情境,例如線上學習、電商銷售、醫療照護,Google並沒有強烈的動機為台灣客製化。尤其是在醫療照護上,台灣中南部許多長者習慣以母語、國台語、國客語、國語原住民語夾雜的對話,都是Google模型沒有處理的。
「開發一套台灣人專用的AI語言模型,本來就是台灣人自己的責任,」蔡宗翰說,相較於中國,台灣沒有類似的大企業,因此力量是分散的,他也希望政府可以提出一些政策整合學界與業界的力量,發展出各行業需要的預訓練模型,減低各行各業導入AI相關語言服務的門檻。
自然語言處理五年後的發展?
近年來,語言模型由循環神經網路RNN、長短期記憶神經網路LSTM、再到Transformer為基礎的GPT2、GPT3,已有了長足顯著的進步。蔡宗翰認為,五年後,「自動寫作」的表現將比現在成熟許多。他解釋,如果能獲得更多高品質的訓練資料,AI的表現將會更好。但它不一定是搶走寫作者的工作,而是成為一種工具,讓不願意寫或不會寫文章的人可以在AI的幫助下完成一篇文章;原本很會寫的人,例如厲害的廣告文案或者作家,AI雖無法取代他們,但可以扮演提供靈感的角色,提升這些專業寫作者的寫作效率。
提到近來有人嘗試將Transformer等發展較為成熟的自然語言模型,應用於圖像辨識上,對此,蔡宗翰提醒,Transformer等自然語言模型的特色是,在一定長度(例如BERT-Large的輸入長度限制就是512字)的限制下,計算出整串輸入中兩兩單元間的自注意力,作為兩者間的關聯性。但應用到影像上,一張Full HD的圖片就含有約兩百萬個單元,如果按照在自然語言上的處理方式,要算的自注意力就太多了。這時候就需要依照應用,將有限的自注意力,用在該注意的單元上,因此在模型上,還有很多發展空間。
隨著AI相關技術發展越來越成熟,蔡宗翰也提醒,在發展相關應用與技術時,應該要多想到使用者的感受,而非僅追求很複雜、在Benchmark資料集上效果很好的模型架構。他舉例,以聊天機器人來說,真實聊天狀況中可能會遇到不同的諷刺語氣,除了參數調整之外,面對真正的使用者時,模型該如何去適應?是否能運用新的方式讓效果提升?除了專注眼前的模型效果,若能看到整個大環境的應用方向,或許在解決問題的作法上就會有不同的方向。蔡宗翰說,透過多多涉獵人文學科的知識,讓他可以跳脫追求模型表現的窠臼,更能思考到使用情境、後續的應用問題,以及對於社會所帶來的改變。