Attention Is All You Need：關於Transformer你所需要知道的關鍵論文

Transformer可說是繼Fully-Connected、Convolutional、Recurrent三大神經網路架構後，新興而起的第四大神經網路架構，也是當前十分流行的架構。許多知名的模型像是 BERT 與 GPT-3 等，都是奠基在這個架構上。近年在圖像描述、聊天機器人、語音辨識以及機器翻譯等各大領域應用，都有突出表現。

2017 年，Transformer 被提出時，當時開發人員說的開創論文《Attention is all you need 》中特別強調注意力機制的改變，利用此技術訓練的文字翻譯任務，也有不錯表現。從論文名字「Attention is all you need」可以看出端倪，工程師不再需要使用RNN+注意力機制（attention）的作法，只要專注在attention本身就好，運算時間也相較RNN來得短。

除了文字翻譯，該模型架構也可應用到許多自然語言處理的任務，因此衍生出許多論文及知名模型，如BERT、GPT、XLNet...。近來，有許多研究發現Transformer的注意力機制除了應用在時間序列或文字資料，還能用於圖像資料，拓展了非文字資料上的成果。（延伸閱讀：在產業應用與技術間，AI工程師看到哪些重要趨勢？）

因此，《Attention is all you need 》這篇發表於2017年的論文，可說是當今許多知名架構與模型的濫觴。透過「科普學AI」這一支論文導讀的影片，講者以 RNN 為基底的 Seq2seq 起頭，接著介紹 Transformer 詳細架構以及數學公式，帶領讀者深入瞭解 Transformer 的優點以及未來可以改進的地方。

如果想要快速了解Transformer的人，也可以參考政治大學應用數學系教授蔡炎龍在臉書這篇貼文中，十分精煉且清晰的說明。

我需要了解Transformer嗎？

對於想要增進自己能力的工程師來說，如果能夠深入瞭解不同模型的架構與細節，在自身的資料或專案也能擁有較高的掌握度，也就不容易陷入人云亦云，只能等待其他人說「聽說要做文字翻譯就用這個模型就對了」，對模型表現束手無策的窘況。

了解架構的細節而非只是應用，才能知道根據不同專案的狀況，調整模型的設計，讓專案表現得更好。如果你對於自然語言處理感興趣，又或者是正在進行NLP或CV相關的專案，想獲得突破靈感並縮短研究摸索時間，都十分適合報名AIF所設計的：『變形金剛 Transformer 傳說三部曲』課程。

工作坊將手把手教戰，以Transformer-based深度學習技術為軸，以深入淺出的講解加上簡易的實作，幫助上課學員了解其基礎理論到進階應用的發展。（點我立刻報名）