NLP一定得要大數據嗎？現代語言學有新解

科學家一直嘗試著讓電腦變得和人類一樣，具有感知、學習與協助決策的能力。讓電腦可以理解人類語言的自然語言處理（Natural Language Processing，NLP）成為近年來十分熱門且挑戰性十足的研究領域。但是，人類語言的博大精深，有辦法教會電腦理解嗎？又該準備多少的訓練資料才夠呢？這些問題如果從語言學的觀點切入，也許能找到更多答案。

專家系統就能完成人工智慧的自然語言處理任務？

人工智慧的發展經過了兩次的寒冬，2010年掀起至今的熱潮已經是第三波的發展。在第一波的發展中，科學家嘗試將人類的思考邏輯放進電腦中，但因為還無法清楚理解人類的思考過程而失敗了；第二波的發展則以邏輯推理方法為主，科學家退了一步，不再嘗試讓電腦學會人類的思考，而是透過專家寫下規則，再讓電腦學會按照人類定義好的規則進行決策，也就是「專家系統」，但因為有太多難題無法寫成規則再度失敗；直到2010年，由於電腦的資料儲存與運算速度大幅提升，加上大數據的興起，許多演算法的概念得以實現並促成第三波的人工智慧發展。

卓騰語言科技負責人王文傑，研究所時期鑽研於語言學，也曾擔任過PyconTW講者，兼具語言學及程式設計兩種領域專業。他說，中文裡至少就有六萬多條不同的規則，早已超出人類能妥善處理的量，但在新的語言學思維範式發展下，工程師只要利用Rule-based的邏輯推理，就能完成人工智慧的自然語言處理任務。

不過，王文傑笑說，許多人都以為Rule-based已經失敗而不被使用，但這就好像當大家都拿著尖嘴鉗想要轉開螺絲，當你拿出板手，明明是最適合的工具，卻因為跟大家的工具不一樣，而備受質疑。

人類的語言變化萬千，有辦法教會電腦學完所有語言規則嗎？

在 1970 年代末期，語言學經歷了一次巨大的典範轉移 (Paradigm Shift)。王文傑解釋，在新典範提出前，語言學界認為小孩出生時，大腦是空白的，而語言能力則是經過大量的刺激學習而來；但新的典範則認為人類出生時，大腦已經有一定的結構，只要藉由少量刺激就能啟動語言能力。這也才能說明，為什麼小孩子常常有些自創的詞語出現。

卓騰語言科技基於現代語言學知識的理論，開發的產品也獲得許多醫院機關及法律界的青睞。即使這些單位沒有辦法提供龐大的訓練資料，卓騰的系統也能提供有效的成果。許多人在聽到他們主要是利用Rule-based完成NLP 的各項任務時，多半會質疑能否窮舉出所有規則？「但是，根本不用窮舉呀。」王文傑說。

他舉例：「我昨天買了一隻很會 _______ 的小狗。」這句話中，劃底線處可以放什麼字？可填入的答案可能五花八門。但如果我們問的是，畫底線處可填入什麼詞性？你的答案就被詞性的架構所收斂了。由Avram Noam Chomsky提出的X-bar Theory句法樹正好能說明這件事。在已經知道 X-bar 結構的情況下，加上固定數量的功能詞及其所帶的運算順序，不用內建字典，或是把所有可能的詞彙都先建個字典來載入，就可以解析自然語言了。

所謂的語言模型，並沒有處理到語言的問題

王文傑認為，目前將語言轉換成文字再到到語言模型的過程，是一個逐步失真的過程。他解釋，我們目前處理的過程是將語言變成沒有語氣、語調和語速的文字，接著經過斷句，前後文、語境、文法、句構也在一句句的處理過程中喪失。最後產生的語言模型，並沒有邏輯、因果與知識。

「text 不等於language，」王文傑說，世界上目前使用的 7139 種語言裡，有 4065 種語言沒有文字系統。也就是說，如何把一個想法傳遞到對方腦海中，並不一定要透過文字，但一定要透過語言形式。所以當今我們說的「train model」比較像是做出文字符號的分佈，卻沒有真正處理到語言的問題。因此，也不該叫做語言模型。

人類的語言能力主要由三大部分組成：一、輸出與輸入的能力（I/O），也就是能說能聽；二、內建的語言處理系統；三、百科知識或特定領域知識。舉例來說，當我們和某人產生以下對話：

A：「明天我要去高雄」
B：「高雄，很遠耶！」
A：「你知道高雄在哪？」
B：「高雄，很遠耶！」

你也許會覺得B的回應怪怪的？或者是不是感覺有點像是目前chatbot的回應？原因就在於B雖然具備輸入與輸出能力，也能擷取到高雄這個關鍵字，擁有前兩項語言能力，卻因為缺少了對話中的相關領域知識，而無法做出有效的回應。而相關領域知識的訓練，則需要透過機器學習技術的協助。

「Hybrid才是關鍵。」王文傑指出，要做出一個能聽懂人話的AI，並不一定得在符號邏輯和機器學習二選一才行。若能以符號邏輯的可解釋性做底，加上機器學習的百科知識補充人工智慧的經驗，再賦與其語音和文字的輸入和輸出，就能做出一個具有人類程度的AI。

去年OpenAI推出的GPT3，以其龐大的架構及驚人的運算需求引起關注，在自然語言處理領域裡，是不是非得依靠大數據才行？王文傑憂心的說，台灣的鄰居是一個一天就能產生「3.2 億篇微博貼文」的大數據產生國，如果我們的NLP技術只剩下透過數據來訓練模型這一招的話，絕對會被中國牽著走。透過現代語言學的新方法，其實可以提供 NLP 問題的公式解，先使用少量的資料，再慢慢針對需求累積語料，之後再導入機器學習等技術，是解決產業資料數量不夠多的解法。

專家系統就能完成人工智慧的自然語言處理任務？

人類的語言變化萬千，有辦法教會電腦學完所有語言規則嗎？

所謂的語言模型，並沒有處理到語言的問題

推薦閱讀