亞太智能機器讓AI讀懂人話
用自然語言模型提升虛擬人的魅力

想像一下,當我們進到遊樂園中,所有樂園中的電子虛擬角色都能自然與你互動;或是現實世界中的麥當勞叔叔、肯德基爺爺等不同企業形象的角色,也能開口跟你說話,是否會提升你對企業的好感呢?又或者,假使能有虛擬人物協助服務業點餐,由於沒有地域性問題,也不會累,假使面對奧客上門時,也能幫忙應對而不動怒,對於缺工情況越來越嚴重的服務業將帶來實質的幫助。

日前在AI Expo展場上,亞太智能機器以結合虛擬人物和生成式AI的「AI占卜師」,吸引不少觀眾駐留。這家成立於2017年的新創公司,專精於自然語言技術應用,目前已有超過50家企業採用相關技術,更入選為NVIDIA Accelerated Apps Catalog的 GPT 全球唯一個案廠商、Microsoft for Startups Program團隊,以及Google Cloud for Starups Program最終獲選團隊。

讓虛擬人物更吸引人的關鍵:流暢的語言互動

能和人類進行互動交流是虛擬人物受到矚目的關鍵,因此,能讓機器聽懂與回應的自然語言處理技術就極為重要。

亞太智能機器共同創辦人兼產品經理張書銘認為,虛擬的人物或角色有二加一個重要的元素,分別是外表姿態(容姿)、個性,與聲音。外貌包括表情、情緒、手部或身體動作,這部分可由繪師畫出該角色的型態,或是透過Motion Capture技術,透過穿戴的感測器(Sensor)在身體上佈滿感測點,利用這些感測點驅動虛擬角色的動作,再逐步紀錄動作;或是利用最近熱門的Generative AI工具,如MidJourney或Stable Diffusion生成,使用者只要提供一段文字,便能產生相對應的結果。目前,Generative AI已經不只能生產圖片,也有生成影片的技術,未來預計將會有更多生成式AI工具加入。

張書銘說,不同於虛擬實況主播(Virtual YouTuber,簡稱Vtuber)仍需要真人在幕後操縱角色的表現,虛擬人物結合自然語言理解技術的最大差異就是拿掉了人類的元素。因此,包括意圖辨識、情緒辨識,以及命名實體辨識(NER)都是讓人類能順利與機器進行互動的關鍵技術。假使與虛擬人物互動的流程中,缺少情緒辨識等技術,機器無法判別一個人已經動怒,卻還是用原本的語言進行溝通時,就會衍伸出許多問題;而命名實體辨識主要是用來提取關鍵名詞,假使今天演講者的名字是Arthur,那麼Arthur這個詞就會被提取出來,告訴機器Arthur是一個人名,並針對人名再做對應的處理。

從真人配音到讓機器自己說話

相信有玩過ChatGPT的人會發現,其最大的限制在於即時資料的更新(編按:現在已能透過ChatGPT Web Browsing模式,允許ChatGPT 連線上網,讓回應資料不再侷限於2021年前。)張書銘進一步分享,不過若是使用其他語言模型,在沒有即時資料的情況下,要讓資料能即時更新,或是找到資料的方法,就是利用各式的API串接,或是企業內部可以串接CRM或ERP等內部系統取得資料。

而在聲音表現上,除了真人配音之外,還有日本樂器製造商山葉公司(YAMAHA)所開發的音樂製作語音合成軟體VOCALOID,該軟體除了可以製作音樂外,只要輸入音調和歌詞,就可以製作出合成的人聲歌聲。除此之外,目前已有許多公司研發出文字轉語音的技術服務。

人類與機器溝通的流程,在技術上可以分成三大階段,第一階段是STT(Speech-to-Text),或也有人稱為ASR(Automatic Speech Recognition) ,也就是必須先將人類的語音轉成機器可以理解的文字形式,才能讓機器進行意圖判斷、情緒辨識,及命名實體辨識等處理。接著,在理解完意思之後,才能根據對話者的意圖判斷是否需要串接API或是CRM、ERP等資料,並統整產生適當的回答。最後,這個答案需要透過文字轉語音(TTS)的技術,以適當的語音表現出來。

GPT出現對虛擬人的影響

張書銘提到,GPT等大型語言模型的出現大幅度地提升了意圖辨識的準確度,更進一步提升了人機互動的順暢度,同時也擴大了許多可行性。但他也提醒,GPT並非萬能,尤其是使用過程中,仍需要對生成的內容進行求證,避免過度依賴與相信其能力。

在虛擬人的發展上,所要注意的事情極多,包括資料的收集與處理、模型的訓練方式、準確率、回應速度等,例如選擇使用GPT可能會遇到的問題就是回應速度很慢,這時該使用什麼手段優化模型,或是嘗試用最小的模型解決事情,都得根據不同的使用目的與意圖,而有不同的考量因素。又或者,虛擬人物的精緻程度也會依照使用場景而有不同要求;甚至是與人互動過程中資料搜集與再利用,又該如何放進流程中,這些都是需要被納入考量的要素。

張書銘認為,由於大型語言模型依然存在著效能的問題,因此如何利用各種手段優化模型將會是未來虛擬人發展的重要趨勢;且隨著生成式影片建置成本逐漸下降,未來也許也能應用於虛擬人上。而在蘋果推出的Vision Pro受到矚目且看好之際,前端工程師勢必將面對如何將響應式網頁放進Vision Pro中的大挑戰。

想了解更多虛擬人的應用,請參考【AI CAFÉ 線上聽】打造虛擬人的魅力:自然語言模型的秘密。