《經濟學人》如何用Midjourney設計封面主視覺

全球權威財經雜誌《經濟學人》（Economist）在6月以「AI新境界」（AI’s New Frontier）做為封面故事，而封面主視覺也首次由AI進行設計。究竟AI是如何設計出這個封面？《經濟學人》在電子報中有詳細解釋。

他們採用的是Midjourney系統，只要輸入文字，電腦就能畫出AI「認為相符」的圖片。首先，輸入的文字是「How to worry wisely about intelligent machines」結果AI抓到了「worry」，於是出現了愁眉苦臉的機器人；接著也嘗試過輸入「Artificial intelligence happily jumps forward」，這次出現的是快樂跳躍的機器人。而機器人的圖像怎麼出來的？《經濟學人》形容，「像是把電視跟電影中的機器人影像抓出來搗碎在一起」。

每次生成四張圖片只需要不到1分鐘，而經過了250次嘗試並生成千張圖片，他們也發現，太多文字與更多形容並不會讓AI更準確畫出符合期望的圖片，反而會因此使得AI負載過重，（這點跟人類似乎有些不同），畫出更崩壞的圖。同時，為什麼AI會畫出這樣的圖，它們的思考邏輯（如果有的話）是什麼？人類因為無法得知模型運作的真正邏輯，也無法得知。

實際上，這是去年底才發展出來的技術，而且代表AI首次登上全球權威雜誌的封面，當然不免令人聯想，過去我們常認為AI無法取代人類的創意工作，這一點是不是即將被打破？另外，是不是可以用中文讓AI畫圖？其實，在台灣早就有許多工程師嘗試過，甚至寫好故事讓AI畫成繪本，當然還在實驗階段，距離人類的作品水準相差很遠。

「Midjourney」是如何運作的呢？

使用者可以輸入各式形容詞、畫家風格、畫面元素、視角與鏡頭等描述，並得到四幅不同表現的圖案，再從生成的四張圖案中，選擇最接近表現方式的圖案，逐步調整畫風與內容，最後得到圖案成品。

輸入指令：「robot ,near-future city+by cyberpunk, --ar 3:1」，初步所得到的四張圖

Midjourney的作畫過程，大致可分為兩大步驟：理解輸入的語言，接著產生對應的圖。首先，當使用者輸入一段文字時，自然語言模型會將這段文字編碼以映射到表徵空間中，稱之為該文字敘述的「表徵」；接著，模型則會在空間中尋找與這個表徵相符合或接近的圖形表徵。最後，模型再將此圖形表徵輸入圖畫生成器產生創作的圖案。

當Midjourney學習如何產生圖像時，它需要了解哪些詞與它所提取的圖形特徵有關聯。看起來像是一串數字的表徵，其實隱含著許多圖形的各類特徵資訊。換句話說，當模型接收到一個藝術家名字的提示時，它已經知道與該藝術家的關聯性，並會生成一個帶有該藝術家風格的圖畫。

過程中，想要精確的執行語言理解的任務，就特別需要強大的基礎模型（Foundation Models ）。在《經濟學人》的封面故事中，也多次提到這個字眼。

基礎模型指的是透過大量的數據訓練出能執行多種不同任務的模型（通常有規模的使用自監督式學習），例如Google、Facebook等大型科技公司，近幾年皆挹注龐大的資源訓練出大型模型，如GPT-3、BERT、PaLM等，都屬於基礎模型。

備受矚目的基礎模型

在人工智慧漫長的發展過程中，人類一直嘗試著讓電腦能夠表現出類似人類的智慧行為，並協助我們解決問題。過去幾十年來，我們曾經歷過兩次的人工智慧寒冬，直到十年前，深度學習在影像分類的表現突破過往停滯的技術瓶頸，才再度掀起第三波的熱潮。從電腦視覺開始，用電腦來處理聲音、文字、語音及各種訊號也都逐一得到突破性的結果。

機器學習是第三波人工智慧浪潮的代表技術，而深度學習則是近年成長最快、表現最亮眼的機器學習技術，可以視為多層類神經網路的代稱，與其他機器學習方法的最大差異在於：能否自動進行「特徵工程」。能夠自行擷取出資料特徵，並以擷取的特徵做為基礎，加上大量資料的過濾與學習，進而提升任務目標的表現。

由於深度學習需要大量的資料與強大的運算資源，目前看到越來越強大的AI模型，都是由大型的科技公司所開發。例如近年備受矚目的語言模型GPT-3；或是微軟和NVIDIA合作開發的語言模型Megatron-Turing NLG（MT-NLG），近期Google也發表一套具5400億參數的自然語言模型PaLM（Pathways Language Model）。

透過這些大模型的基礎架構，我們因此能再接續開發其他應用，例如BERT近來被廣泛應用於自然語言處理；其他領域包括電腦視覺、蛋白質摺疊、音樂等，也都能看到基礎模型的應用；大型科技公司也越來越積極地投資於模型的開發，並擴大產品應用與影響力。

考量到不斷擴大的應用與規模，我們也必須開始思考即將到來的疑慮與危機。例如，誰有權力使用這些基礎模型？當訓練模型所需花費的成本越來越高，科技的主導權是否將過度集中於大企業與政府手中？

OpenAI日前發表新版DALL·E 2 AI系統，同樣是只要透過一段描述文字便能產生各種圖片。但這套模型僅允許開發人員能夠「有限制的使用」，包括色情、暴力內容也不被允許製作，也許是因為考量到濫用所帶來的風險。這樣的管控雖然能降低技術被濫用的可能，卻也可能產生另一批科技精英階級。

另一方面，當我們使用既有的數據訓練模型，是否將加深當前社會既有的偏見？網路上的資料無法代表全體人類，資料的採樣是否會有偏差問題？你會相信一個世界觀完全由網路塑造的10歲小孩嗎？中國及美國會不會特別訓練AI來進行意識洗腦？別忘了，還有一部分的族群，甚至在網路上沒有足跡。

新的革命即將到來？

長久以來，AI被認為將對高重複性的工作者造成巨大威脅，而藝術家、作家、程式設計者等具創造性的工作者尚且不用擔心會被取代。但是，基礎模型的發展恐怕將挑戰這個假設。雖然，基礎模型尚無法和人類智能完全相同，以Midjourney為例，模型所創作的圖案，快速地提供了人類創作的靈感發想，雖然仍需人類提供概念或後製調整，卻有可能大幅提升人類的工作效率；另一方面，對於不擅長繪畫的人來說，Midjourney也提供了創作的可能性，若能適當運用，將能補足人類的能力。