論文快讀

此標籤共有 14 篇文章

Transformer會是最強的視覺辨識模型?要不要試試新設計的CNN模型
論文快讀, 技術

Transformer會是最強的視覺辨識模型?要不要試試新設計的CNN模型

CNN是近年來圖像分類任務中大家的優先選項之一。從2012年的AlexNet開始至今,許多學者相繼針對CNN based模型進行改進。近年來除了大家耳熟能詳的ConvNet based模型外,包括GoogleNet、ResNet等,也開始引進在NLP任務中大獲成功的Transformer架構,如:Swin Transformer。