2012–2016:深層 CNN 成為標準 Backbone (深度與殘差的突破)
- 設計動機
- 傳統 CNN(如 VGG)堆疊過深會引發梯度消失(Gradient Vanishing)與網路退化(Degradation)問題
- Detection / Segmentation 需要多尺度的特徵(低層抓邊緣,高層抓語意),需要更深且穩定的網路作為特徵提取基底
- 設計方向
- Identity Mapping(恆等映射):透過 Skip Connection 讓梯度可以直接回傳,解決深層優化問題
- Bottleneck Design:利用 1×1 卷積降維再升維,大幅降低 3×3 卷積的計算量
- 代表模型
- ResNet (Residual block)
- ResNeXt (Grouped Convolution 引入)
- DenseNet (Dense connectivity,特徵重複利用)
- 時代意義
- 確立了「Stem → Stage 1~4 → Head」的標準分層架構
- 成為後續 FPN(Feature Pyramid Network)完美契合的標準輸入源
2017–2020:CNN 的效率與可擴展時代 (算力與設計空間的精算)
- 設計動機
- 在行動端與邊緣設備上,標準 ResNet 參數冗餘且計算過度
- 傳統放大模型只靠單一維度(加深 Depth 或加寬 Width),容易遇到邊際效應遞減
- 設計方向
- Depthwise Separable Convolution(深度可分離卷積)
- 將標準卷積拆分為 Depthwise(空間特徵)與 Pointwise(通道混合),大幅降低 FLOPs
- Compound Scaling(複合擴展)
- 透過嚴謹的數學優化,按固定比例同時擴展網路的寬度、深度與輸入解析度(Resolution)
- Neural Architecture Search (NAS)
- 利用演算法自動搜索最佳的網路設計空間(Design Space)
- 代表模型
- MobileNet 系列 (Inverted Residuals, Linear Bottlenecks)
- EfficientNet 系列 (Compound Scaling, NAS)
- RegNet (量化網路設計空間)
- 時代意義
- Backbone 設計從「人工試錯」走向「數學規則化與自動化」
- 確立了 FLOPs 與 Accuracy 之間的帕雷托最優(Pareto Frontier)標準
- 設計動機
- CNN 受限於「局部感受野(Local Receptive Field)」,遠距離像素間的關係必須透過多層池化(Pooling)才能交互,導致資訊流失
- 設計方向
- 完全捨棄 CNN 的 Inductive Bias(平移不變性與局部性),將影像切塊(16×16 Patch)展平為 1D Token 序列
- 引入 Global Self-Attention,讓模型從第一層開始,任何一個 Patch 都能直接與整張圖片的其他 Patch 進行 O(1) 距離的資訊交換
- 核心痛點
- 複雜度爆炸:Self-Attention 的計算量相對於 Token 數量呈二次方增長 O(N2)高解析度影像會導致記憶體與計算量崩潰
- 缺乏多尺度:純 ViT 只有單一解析度(通常是原圖的 1/16),無法提供 Detection 需要的特徵金字塔(如 1/4,1/8,1/16,1/32)
- 時代意義
- 證明了只要「資料量夠大」,Data-driven 的全域建模能力可以碾壓人工設計的 CNN 先驗
- 設計動機
- 為了解決純 ViT 無法處理高解析度(O(N2) 瓶頸)與缺乏階層特徵的問題,必須讓 Transformer「CNN 化」
- 設計方向
- Window-based Attention:將注意力機制的計算限制在局部視窗(Window)內,將整體運算複雜度從影像大小的 O(N2) 降為線性 O(N)
- Shifted Window:透過視窗平移(Shift),在不增加額外計算量的情況下,打通跨視窗的資訊交流
- Patch Merging:模擬 CNN 的 Pooling,逐層降低空間解析度並增加通道數,完美重建 FPN 所需的四階段特徵圖
- 代表模型
- Swin Transformer (Shifted Windows)
- PVT (Spatial Reduction Attention)
- 時代意義
- 成功將 Transformer 改造成通用型 Backbone,使其能無縫接入 Mask R-CNN, Cascade R-CNN 等主流密集預測(Dense Prediction)框架
2022–2023:Inductive Bias 融合與 ConvNet 回潮 (架構大一統)
- 設計動機
- 研究界反思:Swin 的成功,究竟是因為 Attention 本身,還 是因為「階層化設計、大感受野、現代化訓練技巧」?
- 設計方向
- Macro/Micro Design 借鑒:用純 CNN 結構模擬 Transformer例如將 Stem 改為 4×4 不重疊卷積(模擬 Patchify)、引入 7×7 甚至 21×21 的大卷積核(模擬 Global Attention)、減少激勵函數並將 BatchNorm 替換為 LayerNorm
- Hybrid 架構:在淺層保留卷積提取高頻邊緣細節,深層使用 Attention 捕捉全域語意
- 代表模型
- ConvNeXt / ConvNeXt V2 (純 ConvNet 的現代化逆襲)
- InternImage (引入 Deformable Convolution v3,動態感受野)
- 時代意義
- 證明了「卷積與注意力機制並非互斥」底層的算子選擇(Operator)退居二線,整體的巨觀架構與訓練策略(Training Recipe)才是效能關鍵
2023–2025:Foundation Backbone 時代 (自監督與海量參數)
- 設計動機
- 監督式學習(ImageNet 標註)已達天花板視覺 Backbone 需要像 NLP 的 GPT 一樣,透過無標註資料學習「物理世界的通用表徵」
- 設計方向
- Masked Image Modeling (MIM):如 MAE(Masked Autoencoders),蓋住 75% 的影像區塊,強迫模型重建像素,藉此學習深層語意
- Feature-level Self-Supervision:如 DINOv2,不重建像素,而是學習特徵層面的對齊與聚類
- 核心特性
- 抽取的特徵(Features)具備極強的「開箱即用」特性,包含語意、景深、甚至物體邊界資訊,只需 Linear Probe(單層線性微調)就能達到極高準確率
- 代表模型
- DINOv2 (ViT 基底,自監督王者)
- SAM Image Encoder (任務導向的 Foundation Backbone)
- 時代意義
- Backbone 的競爭從「模型設計」轉移到了「算力與資料規模(Scaling Law)」Backbone 成為名副其實的「視覺基礎建設」
2024–2026:Post-Attention 與線性複雜度模型 (Mamba / SSM 的崛起)
- 設計動機
- 即使是 Swin Transformer,其局部視窗依然是一種妥協處理 4K 高畫質影像、長影片或 3D 醫療影像時,Transformer 的計算瓶頸依然無解
- 設計方向
- 引入控制系統理論的 State Space Model (SSM),將序列預測的計算複雜度強制降為純線性 O(N),且在推理階段可轉化為 RNN 形式,記憶體佔用極低
- 2D Selective Scan (SS2D):為了解決 1D SSM 無法處理影像空間結構的問題,VMamba 提出了四向交叉掃描(Cross-Scan),讓模型既有全局感受野,又是線性複雜度
- 代表模型
- Vision Mamba (Vim)
- VMamba (2D 視覺化的 SSM)
- MambaVision (Mamba + Attention Hybrid 實用化)
- 時代意義
- 正式宣告 Post-Attention 時代 的來臨在「極高解析度」與「邊緣端即時推理」兩大極端場景中,SSM 有望全面取代傳統的 CNN 與 Transformer