除了文字之外,語音基礎模型是另一個令人關注的進展。語音相關的任務極為繁多,除了語音辨識外,還有語者辨識、情緒辨識、語音增強、語音問答等各式各樣的任務,細數起來有上百個,而世界上有七千多種語言,如果要為每一種語言的每一個任務都蒐集大量標註資料是不可能的。於是在語音AI領域掀起了自督導式學習(Self-supervised Learning)浪潮以解決巨量資料標註的問題。
語音處理任務間彼此常常互斥
「語音辨識和語者辨識雖然都不是全新的應用,但我們能用同一個模型就做到這兩件事嗎?如果你是在2021年前問我這個問題,我會說應該沒有辦法用同一個模型解各式各樣的任務,」國立臺灣大學電機工程學系副教授李宏毅解釋,語音與文字任務不太一樣,各個文字任務雖然不同,但彼此仍有相關性,如果會一個任務。其他任務也可以表現得更好。但是,有許多語音任務彼此是互斥的。例如語音辨識和語者辨識,前者是當兩個人說同一句話時,必須無視人與人之間聲音訊號的差異,只要抽取出文字內容;後者則是當同一個人講出不同的語句時,因為所產生的聲音訊號也不同,必須能判斷出是同一個人講的。所以模型要處理的事,無視文字差異,只抽取語者特性。而機器是否能將這兩個互斥的技能融為一體,放在同一個模型中呢?
雖然覺得不太可能,但是,李宏毅還是發起了一個SUPERB(Speech processing Universal PERformance Benchmark)專案,已有許多語言處理領域的研究者及單位加入。這個專案主要是計劃將各式不同的語音基礎模型應用於各種語音任務上,包括除了語音辨識外,還有語者辨識、情緒辨識、語意解析、語音合成等各式各樣的任務,看看哪個會是十項全能的基礎模型。
語音基礎模型的無限潛力
關於語音基礎模型的應用,李宏毅說明,模型會先輸入一段聲音訊號,接著輸出一排向量。他強調,不同於過往文字任務,例如使用BERT模型時會針對不同的任務進行微調。但在這個專案裡,訓練過程中的參數都會是固定的,亦即將會使用同一個基礎模型處理不同的任務。當今天要處理語音辨識的任務時,便會幫模型加上一個Downstream Model的「外掛」,透過外掛處理基礎模型的輸出向量。而要得到這個外掛模型,當然得需要一些訓練資料,且外掛模型最重要的就是保持設計的簡單性,僅需要少數的標註資料就能讓模型學習。
假使各個語音任務都能在這個由基礎模型加上簡單的外掛模型所組成的架構上,若能得到好的結果,也意味著這個基礎模型的能力是通用的。未來若要應用於不同的任務時,就不需要更改既有的基礎模型。經過多個測試與評估之後,發現大多數的語音基礎模型的表現都較以往來得好,顯示語音基礎模型也具有通用特性。
於是李宏毅緊接著挑戰一個新的語音問答任務,就是讓模型直接解讀聲音訊號,不需經過語音辨識,就能直接找出聲音訊號中的正確段落。只要提供機器聲音訊號及對應的資料,不需經過文字資料。期待透過這樣的方式,可以解決有些語言並沒有標準語音辨識系統的問題,例如原住民語。
不斷嘗試且跨界的實驗,卻發現意想不到的結果
李宏毅說,這個挑戰早在2017年就開始做了,但始終沒有成功。於是,在基礎模型出現之後決定重新挑戰。一開始的試驗並不太成功,即使是加強了外掛模型的能力效果也不彰。正準備放棄之際,突然靈光一閃,想到實驗室曾經做過一個和語音沒有關係的研究方向,那就是將訓練在文字上的基礎模型上,應用到與文字毫無相關的DNA序列排序上,直接做DNA的分類。
他強調,這裡的基礎模型並不是訓練在DNA序列上,而是將在文字上訓練的基礎模型,直接應用到DNA上,結果大有幫助。也證實了這些基礎模型被訓練出更通用的能力,並能應用到其他型態的資料上。雖然這個研究成果在當時並不被重視,但直到某天他們突然發現,如果將文字基礎模型疊在語音基礎模型上,將語音輸出的編碼隨機對應到文字上。這裡要特別注意的是,團隊並沒有語音跟文字成對的資料,也就是說對應是隨機產生的。即使如此,也出現了很好的結果。
他笑說,這個對懂技術的人來說,就像是個荒謬的實驗。沒想到實驗結果卻證實這個實驗仍有一定的表現。
想了解更多語音基礎模型建立的應用與挑戰,請點選以下影片看更多: