語音、電腦視覺、自然語言處理,多模態基礎模型的應用與建立
知勢電子報 | 2023.03.19
語音、電腦視覺、自然語言處理,多模態基礎模型的應用與建立

各位朋友們好:

過去這星期,GPT-4正式發布、微軟推出Copilot、百度發表文心一言,還有許許多多以ChatGPT為基礎的應用程式紛紛推出,彷彿播放速度2.0倍的影片一般,令人目不暇給。AI工程師朋友哀鴻遍野,不少人說「這簡直叫人不要睡覺嘛」「根本來不及學會」;還有人說,這樣的狀況持續下去,「乾脆躺平好了」。

技術快速發展的短期衝擊,總不免被無限制放大;再加上被稱為「海嘯第一排」的媒體報導推波助瀾,真假難辨的內容太容易撩動潛藏不安。還有,許多如雨後春筍般竄生的課程,更令人焦慮且疲乏。

所以,最近有好多新朋友舊朋友們來問,應該如何看待AI接下來的影響?我想,沒有人知道正確答案,因為牽涉範圍太廣、維度太多,還有許多未知變數並存且互相連動。而在這樣眾聲喧嘩的時刻,建議不如沉澱一下,仔細思考:科技之於人類生活,真正的意義與價值是什麼?除了(感覺)被技術發展推著跑之外,我們希望如何形塑未來?

這期電子報我們刻意不使用現在熱門的名詞,希望更清晰拆解技術的底層邏輯,與你分享值得關注的變化,以及未來重要的發展趨勢。

人工智慧科技基金會執行長 溫怡玲

本期目錄

語音基礎模型的應用與建立挑戰

語音基礎模型的應用與建立挑戰

世界上有七千多種語言,要為每一種語言的每一個任務都蒐集大量標註資料是不可能的。於是在語音AI領域掀起了自督導式學習(Self-supervised Learning)的浪潮來解決依賴巨量標注資料的問題,機器只要在日常生活中聽人們對話、上網看大量的影片就可以訓練出語音基礎模型(Foundation Model),可以用極少量標註的資料學會語音相關任務。

閱讀更多
大型語言模型越來越強大,卻不能輕忽安全與偏見問題

大型語言模型越來越強大,不能輕忽安全與偏見問題

OpenAI於去年底推出的ChatGPT後,因為模型驚人的表現引起大眾的關注,日前又再推出GPT-4語言模型,最大特色是除了文字對話還能輸入圖片讓AI解讀,且解答能力和正確率更是大幅超越以往。面對大型語言模型的到來,中央研究院資訊科學所研究員、國立陽明交通大學教授古倫維提醒,除了應用與技術外,更需要注意到模型訓練的資訊來源、安全與偏見問題。

閱讀更多
大規模視覺基礎模型之機會與挑戰

大規模視覺基礎模型之機會與挑戰

透過人工智慧技術創造的美女網紅,帳號上線5天後,立刻吸引超過1.8萬名的紛絲。在生成式AI技術日漸成熟下,預期這種由AI生成的網紅將掀起的一種新的浪潮。隨著ChatGPT爆紅,不僅掀起生成式AI熱潮,也引發對基礎模型的關注。台灣大學資訊工程學系教授鄭文皇認為,隨著大規模基礎模型的發展,可預見其將對電腦視覺帶來突破性的第三次變革。

閱讀更多