十項全能的自督導學習

時至今日,我們的日常生活中充滿了各式人工智慧的應用,相關技術更是不斷進步。那麼,目前的人工智慧到底發展到什麼程度了呢?

相信許多人對於「Hey Siri」這一句話十分熟悉,無論是要求說笑話、撥電話,或是放音樂等需求,SIri都能幫忙完成,但是Siri又是怎麼聽懂人話的呢?難道是因為Google有許多工程師,寫了許多程式告訴機器怎麼做嗎?事實上,目前每台手機都具備的語音辨識功能,就是讓機器透過大量資料,自動學會語音辨識。你也許會好奇,我們需要提供什麼樣的資料,機器才能夠學會呢?

國立台灣大學電機工程學系副教授李宏毅指出,通常要10萬小時的標註資料才能訓練出商用系統,也就是說,只讓機器聽過大量聲音訊號是不夠的,這些訊號還必須經過標註,告訴機器每一段聲音訊息各自代表什麼意思,訓練過程十分耗費人力與物力。

李宏毅說,目前的AI大部分是透過督導式學習(Supervised learning) ,每做一個新的任務就需要搜集大量的標註資料,但是,如果每件事情都需要大量的資料,就會增加AI落地的難度。於是,研究者們開始思考有沒有讓AI快速學會新任務的方法,自督導式學習(Self-supervised Learning)正是符合需求的新方法。

自督導式學習的抽象概念就是,在正式開始模型訓練前,需要大量沒有標註的資料讓機器進行「預訓練」,以培養它的基本能力。當機器有了基本能力後,學習的效率就會提高,例如要進行某項任務,只需要提供少量任務的標註資料,再微調AI就能快速進行該項任務。

以自然學習語言為例,我們可以在網路上利用爬蟲,大量蒐集文章,並利用這些文字資料進行預訓練。在自然語言領域,BERT是其中十分知名的預訓練模型,不同於督導式學習,需要工讀生標註資料,自督導式學習並不需要人類介入,機器會自己出題、自己解題。它從網路上所蒐集到的資料中,挑選一段句子並挖空格,接著,猜測空格中的單字是什麼。一開始,機器有可能無法順利填入正確答案,透過自己對答案發現錯誤的過程,逐步學會語句的意思。接下來,當你需要機器協助解決自然語言相關任務時,例如情感分析,人類只需要提供少量的例子,告訴機器正面與負面的語句型態,就能讓機器快速學會新任;又或者,想讓機器執行閱讀測驗的任務,也是同樣的過程。

過去,從事某項自然語言處理任務的學者,終其一生都是從事該項任務研究。但是,但今天已出現典範的轉移,當你想評估模型的語言理解能力時,不會要求只解一個任務,而是要解大量的任務。李宏毅提到,基準資料庫General Language Understanding Evaluation (GLUE)包含了九個任務,當我們想評估機器的能力時,就會讓機器試著解這九個任務,並觀察每個任務的表現。

李宏毅說,雖然BERT概念非常簡單,但並不是一個自己在家裡就能製作的東西。因為BERT是一個非常龐大的模型,擁有34億的參數。除了BERT之外,還有GPT-3 、PaLM 等許多自督導式學習的模型,都屬於這種。

自督導式學習的三個奇蹟?

李宏毅說,許多實驗也發現了自督導式學習具備跨語言、跨學科,以及沒看過人類語言,卻具備基本能力等特性。

首先是在跨語言的表現上,當Google釋出會多語言的 BERT,讓它在一百多種語言上做填空題,並發現,只需要學習英文閱讀能力測驗的考題, BERT就能直接考中文閱讀能力測驗考題。在跨學科方面,除了人類語言相關的任務外,BERT 也能做蛋白質分類、DNA 分類等任務。透過做填空題,AI 不只學習人類語言,還學到了更通用的能力,雖然還講不出這些能力是什麼。

但是,李宏毅坦言,我們並非真的了解這些自督導式學習學會了什麼,讓它變得這麼厲害?雖然今天每一個自然語言系統都是用BERT,但是有沒有更有效率的學習方法?這些都是未來值得注意的研究主題。

精彩演講內容: