Attention Is All You Need：關於Transformer你所需要知道的關鍵論文

科普學AI

「科普學AI」是由幾位人工智慧 (Artifical Intelligence, AI) 從業人員所組成的免費教育性質平台，定期發佈AI相關的數位內容如：技術教學影片、新知、業界動態等等。我們的目標是建立起 AI 知識的據點，給想要學習、獲得AI新知的朋友。不同於一般的教學路線，我們強調科學普及以及探討 AI 的實際應用，幫助對 AI 陡峭的學習曲線望之退步的大多數人，享受 AI 的探索與學習。

瀏覽科普學AI 的所有文章
楊育青

現任人工智慧科技基金會內容行銷經理，關注科技發展對人類的影響，也關心台灣產業面對數位變革時，所面臨的挑戰與克服要點。喜歡文學，欣賞跨域碰撞的火花。

瀏覽楊育青的所有文章

科普學AI, 楊育青

2021/05/14 | 閱讀時間‧約 3 分鐘

Attention Is All You Need：關於Transformer你所需要知道的關鍵論文

Transformer這個由Google 在 2017 年提出的架構，許多知名的模型像是 BERT 與 GPT-3 等，都是奠基在這個架構上，可說是當前在自然語言處理最強大的模型。近來甚至在電腦視覺領域也可看到 Transformer的蹤影。還想多瞭解一點Transformer 的優點嗎？

Transformer可說是繼Fully-Connected、Convolutional、Recurrent三大神經網路架構後，新興而起的第四大神經網路架構，也是當前十分流行的架構。許多知名的模型像是 BERT 與 GPT-3 等，都是奠基在這個架構上。近年在圖像描述、聊天機器人、語音辨識以及機器翻譯等各大領域應用，都有突出表現。

2017 年，Transformer 被提出時，當時開發人員說的開創論文《Attention is all you need 》中特別強調注意力機制的改變，利用此技術訓練的文字翻譯任務，也有不錯表現。從論文名字「Attention is all you need」可以看出端倪，工程師不再需要使用RNN+注意力機制（attention）的作法，只要專注在attention本身就好，運算時間也相較RNN來得短。

除了文字翻譯，該模型架構也可應用到許多自然語言處理的任務，因此衍生出許多論文及知名模型，如BERT、GPT、XLNet...。近來，有許多研究發現Transformer的注意力機制除了應用在時間序列或文字資料，還能用於圖像資料，拓展了非文字資料上的成果。（延伸閱讀：在產業應用與技術間，AI工程師看到哪些重要趨勢？）

因此，《Attention is all you need 》這篇發表於2017年的論文，可說是當今許多知名架構與模型的濫觴。透過「科普學AI」這一支論文導讀的影片，講者以 RNN 為基底的 Seq2seq 起頭，接著介紹 Transformer 詳細架構以及數學公式，帶領讀者深入瞭解 Transformer 的優點以及未來可以改進的地方。

如果想要快速了解Transformer的人，也可以參考政治大學應用數學系教授蔡炎龍在臉書這篇貼文中，十分精煉且清晰的說明。

我需要了解Transformer嗎？

對於想要增進自己能力的工程師來說，如果能夠深入瞭解不同模型的架構與細節，在自身的資料或專案也能擁有較高的掌握度，也就不容易陷入人云亦云，只能等待其他人說「聽說要做文字翻譯就用這個模型就對了」，對模型表現束手無策的窘況。

了解架構的細節而非只是應用，才能知道根據不同專案的狀況，調整模型的設計，讓專案表現得更好。如果你對於自然語言處理感興趣，又或者是正在進行NLP或CV相關的專案，想獲得突破靈感並縮短研究摸索時間，都十分適合報名AIF所設計的：『變形金剛 Transformer 傳說三部曲』課程。

工作坊將手把手教戰，以Transformer-based深度學習技術為軸，以深入淺出的講解加上簡易的實作，幫助上課學員了解其基礎理論到進階應用的發展。（點我立刻報名）

我需要了解Transformer嗎？

推薦閱讀