打造一個語音照護機器人的技術與挑戰

隨著技術的進展，人們也開始期待未來能以語音更順暢地與機器進行對談，但為了能讓機器即時理解對話內容並回應，當中還有許多任務需要處理，包括語音辨識、語音合成、語言理解、語言生成，以及對話管理都是重要議題。簡仁宗指出，這些領域分別已有許多研究者投入，而當前最大的挑戰就是將這些系統整合，並實際解決真實問題。

簡仁宗解釋，語音系統中必須處理整個資料串接的過程，可以看到下圖的架構中，當使用者的聲音輸入之後，會透過不同的路徑進行處理與語音生成，例如利用ASR將語音轉成字串後，進行理解，接著針對理解的狀態進行預測，再透過對話機制產生回應及語言生成與合成。由於這些路徑都是雙向的過程，也會需要投入相當多的心力建立平台，並整合這些複雜的工作。

目前看到的基礎模型並非一蹴可幾，而是經過幾十年的累積而成。從早期的隱藏式馬可夫模型，漸漸到深度學習之後，開始出現End to End的模型；及至目前基於基礎模型的基礎將之適用於具體的領域上，並透過技術提升表現效益。簡仁宗說，最關鍵的技術就是「attention」。他提到，基礎模型的基礎就是Transformer，可以將問題產生成複雜的變化，輸入與輸出都是序列，而訊息會經過位置的編碼，並經過N層的「attention」。

後來出現的BERT (Bidirectional Encoder Representations from Transformers，來自轉換器的雙向編碼器表示) 也是基於Transformer延伸出的模型，是龐大且需要密集運算的模型，至少使用了1.1億個參數，透過自監督式的學習，可以在無標籤資料集上訓練，且僅需要小幅修改，即可推廣至各種應用上。隨後接續出現的GPT2及GPT3，不僅資料量與參數量越來越大，能解決的工作複雜度與任務也越來越多。同時，花費的訓練金額也越來越多。

他提到，不同的component都有不同的基礎模型，在語音辨識上目前較為熱門的基礎模型為Wav2Vec，不僅可以取得程式碼，效能也極為優異。在語音合成部分，也有許多不同的模型與平台，例如Tacotron2，當中極為重要的部分為WaveNet vocoder，可以將語音訊號生成出來，且達到接近人聲的一流品質。另一個重要的模型則是Fastspeech2，優點是速度快且合成的品質很好。在這個基礎之下，我們必須要做Pre-Trained，並且延伸至不同的應用，以及提升各個任務的表現效益。而目前GPT系列的模型在語音生成及理解上都有蠻優異的表現，甚至在對話管理上可能也不太需要，但這仍是一個值得討論的議題。

如何利用既有的Pre-Trained Models，並套用至想解決的問題上，當中有個重要的過程為「fine-tune（微調）」，不過由於基礎模型的參數量太大，即使是微調的工程也十分龐大並提升參數的表現。

簡仁宗的團隊也利用公開的資源與素材，並進行技術整合以及對話流程的設計，開發了一個照護聊天機器人系統，不僅已能順利與人對話，並提供對應的內容，也展現了目前text to speech (TTS)的基礎模型已能有不錯的成果。

更多對話系統打造的技術與挑戰分享，請點選影片觀賞：