Backbone 架構的演進(未完成)

2012–2016：深層 CNN 成為標準 Backbone (深度與殘差的突破)

設計動機
- 傳統 CNN（如 VGG）堆疊過深會引發梯度消失（Gradient Vanishing）與網路退化（Degradation）問題
- Detection / Segmentation 需要多尺度的特徵（低層抓邊緣，高層抓語意），需要更深且穩定的網路作為特徵提取基底
設計方向
- Identity Mapping（恆等映射）：透過 Skip Connection 讓梯度可以直接回傳，解決深層優化問題
- Bottleneck Design：利用 $1 \times 1$ 卷積降維再升維，大幅降低 $3 \times 3$ 卷積的計算量
代表模型
- ResNet (Residual block)
- ResNeXt (Grouped Convolution 引入)
- DenseNet (Dense connectivity，特徵重複利用)
時代意義
- 確立了「Stem $\to$ Stage 1~4 $\to$ Head」的標準分層架構
- 成為後續 FPN（Feature Pyramid Network）完美契合的標準輸入源

2017–2020：CNN 的效率與可擴展時代 (算力與設計空間的精算)

設計動機
- 在行動端與邊緣設備上，標準 ResNet 參數冗餘且計算過度
- 傳統放大模型只靠單一維度（加深 Depth 或加寬 Width），容易遇到邊際效應遞減
設計方向
- Depthwise Separable Convolution（深度可分離卷積）
  - 將標準卷積拆分為 Depthwise（空間特徵）與 Pointwise（通道混合），大幅降低 FLOPs
- Compound Scaling（複合擴展）
  - 透過嚴謹的數學優化，按固定比例同時擴展網路的寬度、深度與輸入解析度（Resolution）
- Neural Architecture Search (NAS)
  - 利用演算法自動搜索最佳的網路設計空間（Design Space）
代表模型
- MobileNet 系列 (Inverted Residuals, Linear Bottlenecks)
- EfficientNet 系列 (Compound Scaling, NAS)
- RegNet (量化網路設計空間)
時代意義
- Backbone 設計從「人工試錯」走向「數學規則化與自動化」
- 確立了 FLOPs 與 Accuracy 之間的帕雷托最優（Pareto Frontier）標準

2020：Transformer 進入視覺領域 (捨棄先驗，擁抱全域)

設計動機
- CNN 受限於「局部感受野（Local Receptive Field）」，遠距離像素間的關係必須透過多層池化（Pooling）才能交互，導致資訊流失
設計方向
- 完全捨棄 CNN 的 Inductive Bias（平移不變性與局部性），將影像切塊（ $16 \times 16$ Patch）展平為 1D Token 序列
- 引入 Global Self-Attention，讓模型從第一層開始，任何一個 Patch 都能直接與整張圖片的其他 Patch 進行 $O(1)$ 距離的資訊交換
核心痛點
- 複雜度爆炸：Self-Attention 的計算量相對於 Token 數量呈二次方增長 $O(N^2)$ 高解析度影像會導致記憶體與計算量崩潰
- 缺乏多尺度：純 ViT 只有單一解析度（通常是原圖的 $1/16$ ），無法提供 Detection 需要的特徵金字塔（如 $1/4, 1/8, 1/16, 1/32$ ）
時代意義
- 證明了只要「資料量夠大」，Data-driven 的全域建模能力可以碾壓人工設計的 CNN 先驗

2021–2022：Hierarchical Transformer (工程化與多尺度回歸)

設計動機
- 為了解決純 ViT 無法處理高解析度（ $O(N^2)$ 瓶頸）與缺乏階層特徵的問題，必須讓 Transformer「CNN 化」
設計方向
- Window-based Attention：將注意力機制的計算限制在局部視窗（Window）內，將整體運算複雜度從影像大小的 $O(N^2)$ 降為線性 $O(N)$
- Shifted Window：透過視窗平移（Shift），在不增加額外計算量的情況下，打通跨視窗的資訊交流
- Patch Merging：模擬 CNN 的 Pooling，逐層降低空間解析度並增加通道數，完美重建 FPN 所需的四階段特徵圖
代表模型
- Swin Transformer (Shifted Windows)
- PVT (Spatial Reduction Attention)
時代意義
- 成功將 Transformer 改造成通用型 Backbone，使其能無縫接入 Mask R-CNN, Cascade R-CNN 等主流密集預測（Dense Prediction）框架

2022–2023：Inductive Bias 融合與 ConvNet 回潮 (架構大一統)

設計動機
- 研究界反思：Swin 的成功，究竟是因為 Attention 本身，還是因為「階層化設計、大感受野、現代化訓練技巧」？
設計方向
- Macro/Micro Design 借鑒：用純 CNN 結構模擬 Transformer例如將 Stem 改為 $4 \times 4$ 不重疊卷積（模擬 Patchify）、引入 $7 \times 7$ 甚至 $21 \times 21$ 的大卷積核（模擬 Global Attention）、減少激勵函數並將 BatchNorm 替換為 LayerNorm
- Hybrid 架構：在淺層保留卷積提取高頻邊緣細節，深層使用 Attention 捕捉全域語意
代表模型
- ConvNeXt / ConvNeXt V2 (純 ConvNet 的現代化逆襲)
- InternImage (引入 Deformable Convolution v3，動態感受野)
時代意義
- 證明了「卷積與注意力機制並非互斥」底層的算子選擇（Operator）退居二線，整體的巨觀架構與訓練策略（Training Recipe）才是效能關鍵

2023–2025：Foundation Backbone 時代 (自監督與海量參數)

設計動機
- 監督式學習（ImageNet 標註）已達天花板視覺 Backbone 需要像 NLP 的 GPT 一樣，透過無標註資料學習「物理世界的通用表徵」
設計方向
- Masked Image Modeling (MIM)：如 MAE（Masked Autoencoders），蓋住 75% 的影像區塊，強迫模型重建像素，藉此學習深層語意
- Feature-level Self-Supervision：如 DINOv2，不重建像素，而是學習特徵層面的對齊與聚類
核心特性
- 抽取的特徵（Features）具備極強的「開箱即用」特性，包含語意、景深、甚至物體邊界資訊，只需 Linear Probe（單層線性微調）就能達到極高準確率
代表模型
- DINOv2 (ViT 基底，自監督王者)
- SAM Image Encoder (任務導向的 Foundation Backbone)
時代意義
- Backbone 的競爭從「模型設計」轉移到了「算力與資料規模（Scaling Law）」Backbone 成為名副其實的「視覺基礎建設」

2024–2026：Post-Attention 與線性複雜度模型 (Mamba / SSM 的崛起)

設計動機
- 即使是 Swin Transformer，其局部視窗依然是一種妥協處理 $4K$ 高畫質影像、長影片或 3D 醫療影像時，Transformer 的計算瓶頸依然無解
設計方向
- 引入控制系統理論的 State Space Model (SSM)，將序列預測的計算複雜度強制降為純線性 $O(N)$ ，且在推理階段可轉化為 RNN 形式，記憶體佔用極低
- 2D Selective Scan (SS2D)：為了解決 1D SSM 無法處理影像空間結構的問題，VMamba 提出了四向交叉掃描（Cross-Scan），讓模型既有全局感受野，又是線性複雜度
代表模型
- Vision Mamba (Vim)
- VMamba (2D 視覺化的 SSM)
- MambaVision (Mamba + Attention Hybrid 實用化)
時代意義
- 正式宣告 Post-Attention 時代 的來臨在「極高解析度」與「邊緣端即時推理」兩大極端場景中，SSM 有望全面取代傳統的 CNN 與 Transformer

2012–2016：深層 CNN 成為標準 Backbone (深度與殘差的突破)​

2017–2020：CNN 的效率與可擴展時代 (算力與設計空間的精算)​

2020：Transformer 進入視覺領域 (捨棄先驗，擁抱全域)​

2021–2022：Hierarchical Transformer (工程化與多尺度回歸)​

2022–2023：Inductive Bias 融合與 ConvNet 回潮 (架構大一統)​

2023–2025：Foundation Backbone 時代 (自監督與海量參數)​

2024–2026：Post-Attention 與線性複雜度模型 (Mamba / SSM 的崛起)​

2012–2016：深層 CNN 成為標準 Backbone (深度與殘差的突破)

2017–2020：CNN 的效率與可擴展時代 (算力與設計空間的精算)

2020：Transformer 進入視覺領域 (捨棄先驗，擁抱全域)

2021–2022：Hierarchical Transformer (工程化與多尺度回歸)

2022–2023：Inductive Bias 融合與 ConvNet 回潮 (架構大一統)

2023–2025：Foundation Backbone 時代 (自監督與海量參數)

2024–2026：Post-Attention 與線性複雜度模型 (Mamba / SSM 的崛起)