Attention Is All You Need:關於Transformer你所需要知道的關鍵論文

Transformer這個由Google 在 2017 年提出的架構,許多知名的模型像是 BERT 與 GPT-3 等,都是奠基在這個架構上,可說是當前在自然語言處理最強大的模型。近來甚至在電腦視覺領域也可看到 Transformer的蹤影。還想多瞭解一點Transformer 的優點嗎?

Transformer可說是繼Fully-Connected、Convolutional、Recurrent三大神經網路架構後,新興而起的第四大神經網路架構,也是當前十分流行的架構。許多知名的模型像是 BERT 與 GPT-3 等,都是奠基在這個架構上。近年在圖像描述、聊天機器人、語音辨識以及機器翻譯等各大領域應用,都有突出表現。

2017 年,Transformer 被提出時,當時開發人員所的開創論文《Attention is all you need 》中特別強調注意力機制的改變,利用此技術訓練的文字翻譯任務,也有不錯表現。從論文名字「Attention is all you need」可以看出端倪,工程師不再需要使用RNN+注意力機制(attention)的作法,只要專注在attention本身就好,運算時間也相較RNN來得短。

除了文字翻譯,該模型架構也可應用到許多自然語言處理的任務,因此衍生出許多論文及知名模型,如BERT、GPT、XLNet...。近來,有許多研究發現Transformer的注意力機制除了應用在時間序列或文字資料,還能用於圖像資料,拓展了非文字資料上的成果。(延伸閱讀:在產業應用與技術間,AI工程師看到哪些重要趨勢?

因此,《Attention is all you need 》這篇發表於2017年的論文,可說是當今許多知名架構與模型的濫觴。透過「科普學AI」這一支論文導讀的影片,講者以 RNN 為基底的 Seq2seq 起頭,接著介紹 Transformer 詳細架構以及數學公式,帶領讀者深入瞭解 Transformer 的優點以及未來可以改進的地方。

如果想要快速了解Transformer的人,也可以參考政治大學應用數學系教授蔡炎龍在臉書這篇貼文 中,十分精煉且清晰的說明。

我需要了解Transformer嗎?

對於想要增進自己能力的工程師來說,如果能夠深入瞭解不同模型的架構與細節,在自身的資料或專案也能擁有較高的掌握度,也就不容易陷入人云亦云,只能等待其他人說「聽說要做文字翻譯就用這個模型就對了」,對模型表現束手無策的窘況。

了解架構的細節而非只是應用,才能知道根據不同專案的狀況,調整模型的設計,讓專案表現得更好。如果你對於自然語言處理感興趣,又或者是正在進行NLP或CV相關的專案,想獲得突破靈感並縮短研究摸索時間,都十分適合報名AIF所設計的:『變形金剛 Transformer 傳說三部曲』課程。

工作坊將手把手教戰,以Transformer-based深度學習技術為軸,以深入淺出的講解加上簡易的實作,幫助上課學員了解其基礎理論到進階應用的發展。(點我立刻報名