當AI開始繪畫後,將如何影響創意產業?

全球權威財經雜誌《經濟學人》(Economist)在6月以「AI新境界」(AI’s New Frontier)做為封面故事,而封面主視覺也首次由AI進行設計。究竟AI是如何設計出這個封面?《經濟學人》在電子報中有詳細解釋。

他們採用的是Midjourney系統,只要輸入文字,電腦就能畫出AI「認為相符」的圖片。首先,輸入的文字是「How to worry wisely about intelligent machines」結果AI抓到了「worry」,於是出現了愁眉苦臉的機器人;接著也嘗試過輸入「Artificial intelligence happily jumps forward」,這次出現的是快樂跳躍的機器人。而機器人的圖像怎麼出來的?《經濟學人》形容,「像是把電視跟電影中的機器人影像抓出來搗碎在一起」。

每次生成四張圖片只需要不到1分鐘,而經過了250次嘗試並生成千張圖片,他們也發現,太多文字與更多形容並不會讓AI更準確畫出符合期望的圖片,反而會因此使得AI負載過重,(這點跟人類似乎有些不同),畫出更崩壞的圖。同時,為什麼AI會畫出這樣的圖,它們的思考邏輯(如果有的話)是什麼?人類因為無法得知模型運作的真正邏輯,也無法得知。

實際上,這是去年底才發展出來的技術,而且代表AI首次登上全球權威雜誌的封面,當然不免令人聯想,過去我們常認為AI無法取代人類的創意工作,這一點是不是即將被打破?另外,是不是可以用中文讓AI畫圖?其實,在台灣早就有許多工程師嘗試過,甚至寫好故事讓AI畫成繪本,當然還在實驗階段,距離人類的作品水準相差很遠。

「Midjourney」是如何運作的呢?

使用者可以輸入各式形容詞、畫家風格、畫面元素、視角與鏡頭等描述,並得到四幅不同表現的圖案,再從生成的四張圖案中,選擇最接近表現方式的圖案,逐步調整畫風與內容,最後得到圖案成品。

輸入指令:「robot ,near-future city+by cyberpunk, --ar 3:1」,初步所得到的四張圖

Midjourney的作畫過程,大致可分為兩大步驟:理解輸入的語言,接著產生對應的圖。首先,當使用者輸入一段文字時,自然語言模型會將這段文字編碼以映射到表徵空間中,稱之為該文字敘述的「表徵」;接著,模型則會在空間中尋找與這個表徵相符合或接近的圖形表徵。最後,模型再將此圖形表徵輸入圖畫生成器產生創作的圖案。

當Midjourney學習如何產生圖像時,它需要了解哪些詞與它所提取的圖形特徵有關聯。看起來像是一串數字的表徵,其實隱含著許多圖形的各類特徵資訊。換句話說,當模型接收到一個藝術家名字的提示時,它已經知道與該藝術家的關聯性,並會生成一個帶有該藝術家風格的圖畫。

過程中,想要精確的執行語言理解的任務,就特別需要強大的基礎模型(Foundation Models )。在《經濟學人》的封面故事中,也多次提到這個字眼。

基礎模型指的是透過大量的數據訓練出能執行多種不同任務的模型(通常有規模的使用自監督式學習),例如Google、Facebook等大型科技公司,近幾年皆挹注龐大的資源訓練出大型模型,如GPT-3、BERT、PaLM等,都屬於基礎模型。

備受矚目的基礎模型

在人工智慧漫長的發展過程中,人類一直嘗試著讓電腦能夠表現出類似人類的智慧行為,並協助我們解決問題。過去幾十年來,我們曾經歷過兩次的人工智慧寒冬,直到十年前,深度學習在影像分類的表現突破過往停滯的技術瓶頸,才再度掀起第三波的熱潮。從電腦視覺開始,用電腦來處理聲音、文字、語音及各種訊號也都逐一得到突破性的結果。

機器學習是第三波人工智慧浪潮的代表技術,而深度學習則是近年成長最快、表現最亮眼的機器學習技術,可以視為多層類神經網路的代稱,與其他機器學習方法的最大差異在於:能否自動進行「特徵工程」。能夠自行擷取出資料特徵,並以擷取的特徵做為基礎,加上大量資料的過濾與學習,進而提升任務目標的表現。

由於深度學習需要大量的資料與強大的運算資源,目前看到越來越強大的AI模型,都是由大型的科技公司所開發。例如近年備受矚目的語言模型GPT-3;或是微軟和NVIDIA合作開發的語言模型Megatron-Turing NLG(MT-NLG),近期Google也發表一套具5400億參數的自然語言模型PaLM(Pathways Language Model)。

透過這些大模型的基礎架構,我們因此能再接續開發其他應用,例如BERT近來被廣泛應用於自然語言處理;其他領域包括電腦視覺、蛋白質摺疊、音樂等,也都能看到基礎模型的應用;大型科技公司也越來越積極地投資於模型的開發,並擴大產品應用與影響力。

考量到不斷擴大的應用與規模,我們也必須開始思考即將到來的疑慮與危機。例如,誰有權力使用這些基礎模型?當訓練模型所需花費的成本越來越高,科技的主導權是否將過度集中於大企業與政府手中?

OpenAI日前發表新版DALL·E 2 AI系統,同樣是只要透過一段描述文字便能產生各種圖片。但這套模型僅允許開發人員能夠「有限制的使用」,包括色情、暴力內容也不被允許製作,也許是因為考量到濫用所帶來的風險。這樣的管控雖然能降低技術被濫用的可能,卻也可能產生另一批科技精英階級。

另一方面,當我們使用既有的數據訓練模型,是否將加深當前社會既有的偏見?網路上的資料無法代表全體人類,資料的採樣是否會有偏差問題?你會相信一個世界觀完全由網路塑造的10歲小孩嗎?中國及美國會不會特別訓練AI來進行意識洗腦?別忘了,還有一部分的族群,甚至在網路上沒有足跡。

新的革命即將到來?

長久以來,AI被認為將對高重複性的工作者造成巨大威脅,而藝術家、作家、程式設計者等具創造性的工作者尚且不用擔心會被取代。但是,基礎模型的發展恐怕將挑戰這個假設。雖然,基礎模型尚無法和人類智能完全相同,以Midjourney為例,模型所創作的圖案,快速地提供了人類創作的靈感發想,雖然仍需人類提供概念或後製調整,卻有可能大幅提升人類的工作效率;另一方面,對於不擅長繪畫的人來說,Midjourney也提供了創作的可能性,若能適當運用,將能補足人類的能力。