照片糊掉怎麼辦?讓DeepRFT拯救手殘的你

圖像去模糊領域(Image Deblurring)便是在解決這樣的問題,我們希望在輸入一張模糊的圖片後,模型能將圖片還原回清晰的狀態。在以往的模型架構中,常見的做法是採用Residual Block,讓模型去學習清晰圖像和模糊圖像的差異。不過,要重建一張清晰的圖片需要考慮圖片上的高、低頻特徵(高、低頻特徵是一個相對的概念,一般來說高頻特徵指的是圖片中的邊緣和輪廓,而低頻特徵則是對應到圖片中的色塊)。清晰的圖像所具有的高頻特徵遠遠多於低頻特徵,這是因為對於模糊圖像來說,沒有比較明顯的邊緣或是輪廓。而傳統的Residual Block雖然在抓取高頻特徵上表現優異,但往往會忽略低頻特徵。

那應該怎麼去更多的考慮圖片低頻特徵?對於這個的問題,在訊號處理的領域中早已有了解答。運用傅立葉轉換,我們能夠取得時域訊號在頻域上的特徵。過去已有許多深度學習的模型配合傅立葉轉換取得了不錯的成果。

受到這樣的啟發,本文提出了Res FFT-Conv Block (Residual Fast Fourier Transform with Convlution Block),在Residual Block的基礎上同時考慮圖片頻域上的特徵,配合MIMO-UNet架構混合多尺度的圖片特徵,達到圖片去模糊的效果。

(撰稿工程師:李宇堂

論文原址:https://arxiv.org/pdf/2111.11745.pdf

GitHub:https://github.com/INVOKERer/DeepRFT