照片糊掉怎麼辦？讓DeepRFT拯救手殘的你

AIF 技術發展中心

財團法人人工智慧科技基金會（AIF）以促進產業之人工智慧科技提升、應用發展及社會永續為宗旨，以客製化訓練、知識推廣及專案服務，賦能企業建立自己的 AI 團隊，發揮既有優勢、提升價值並促進轉型。AIF 技術發展中心不僅關注科技技術的提昇，也持續致力於科技人才的培育，為台灣的科技生態注入新的能量。

瀏覽 AIF 技術發展中心的所有文章

AIF 技術發展中心

2022/03/22 | 閱讀時間‧約 2 分鐘

我們會利用相片去紀錄在生活中的點點滴滴，在開心照相的時刻卻不小心手滑，導致相片整個糊掉，有什麼方法能讓圖片變得清晰呢？

圖像去模糊領域（Image Deblurring）便是在解決這樣的問題，我們希望在輸入一張模糊的圖片後，模型能將圖片還原回清晰的狀態。在以往的模型架構中，常見的做法是採用Residual Block，讓模型去學習清晰圖像和模糊圖像的差異。不過，要重建一張清晰的圖片需要考慮圖片上的高、低頻特徵（高、低頻特徵是一個相對的概念，一般來說高頻特徵指的是圖片中的邊緣和輪廓，而低頻特徵則是對應到圖片中的色塊）。清晰的圖像所具有的高頻特徵遠遠多於低頻特徵，這是因為對於模糊圖像來說，沒有比較明顯的邊緣或是輪廓。而傳統的Residual Block雖然在抓取高頻特徵上表現優異，但往往會忽略低頻特徵。

那應該怎麼去更多的考慮圖片低頻特徵？對於這個的問題，在訊號處理的領域中早已有了解答。運用傅立葉轉換，我們能夠取得時域訊號在頻域上的特徵。過去已有許多深度學習的模型配合傅立葉轉換取得了不錯的成果。

受到這樣的啟發，本文提出了Res FFT-Conv Block (Residual Fast Fourier Transform with Convlution Block)，在Residual Block的基礎上同時考慮圖片頻域上的特徵，配合MIMO-UNet架構混合多尺度的圖片特徵，達到圖片去模糊的效果。

（撰稿工程師：李宇堂）

論文原址:https://arxiv.org/pdf/2111.11745.pdf

GitHub:https://github.com/INVOKERer/DeepRFT

推薦閱讀