A Novel Table Tennis Stroke Recognition Method Using The Bimodal Deep Neural Networks with Skeletal-Temporal Transformer and Racket Geometric Features
結合骨架時序轉換器與球拍幾何特徵之雙模態深度神經網路於桌球擊球動作辨識之研究
👉 Download NCHU_CS_Master_Thesis_2025_ChaoEnHuang.pdf
桌球擊球資料集實驗結果
為直觀呈現模型結果,我們將預測結果、骨架姿態與球拍幾何資訊疊加於影片中,清楚展示模型可穩定辨識八類擊球動作,並正確掌握其時序與語意變化。 此結果驗證所提出之骨架時序建模與球拍幾何特徵設計,可有效提升辨識精度與穩定性,展現於智慧運動分析應用中的實用潛力。
JHMDB 實驗結果
比較 HIT Network 與本方法在動作的預測序列顯示,HIT 容易誤判關節構型相似的動作,缺乏時間脈絡理解;相對地,本方法能連續正確預測整段動作階段,展現出更高的一致性與語意辨識力。 於 JHMDB 資料集上亦達到 83.8% F1-score,證明具備良好泛化能力與語意穩定性。
摘要
本研究提出一套結合2D 骨架模態與RGB 視覺模態之雙模態深度神經網路架構,應用於桌球擊球動作辨識任務。
骨架模態採用 SkateFormer 模型建構時間序列特徵,描述姿態變化與語意脈絡;影像模態則使用 SlowFast ResNet 結構擷取紋理細節與場景資訊。
模型額外整合球拍之區域面積與中心座標等幾何特徵,輔助標示揮拍過程的起訖區間。
訓練資料集由專家示範建構,涵蓋正手與反手共八類典型擊球動作,並以滑動視窗方式建立具時間連續性的標註片段。
實驗結果顯示,本方法在桌球資料集上達到 96.1% 的 Precision、96.4% 的 Recall 與 96.2% 的 F1-score,
相較 HIT Network 相對提升 25.9%,整體效能亦優於 SkateFormer 與 SlowFast ResNet 等基準模型;
在 JHMDB 通用動作資料集上亦取得 84.2% 的 Precision、83.8% 的 Recall 與 83.8% 的 F1-score,
相較 HIT Network 相對提升 1.7%,展現穩定的分類效能與良好的泛化能力。
本研究驗證骨架與影像模態之互補性,以及幾何特徵對動作邊界判斷之輔助價值,展現其於智慧體育分析場景中的應用潛力。
關鍵字:雙模態深度神經網路、桌球動作辨識、骨架時序轉換器、球拍幾何特徵、實例分 割
| 本方法之流程圖 | 雙模態動作識別架構圖 |
緒論
研究背景與動機
隨著智慧科技快速發展,運動分析逐漸導入人工智慧技術,以提升訓練與比賽的效率與精準度。 以桌球為例,傳統訓練方式倚賴人工標記與影片回放,不僅耗時,也難以客觀量化動作細節,尤其在面對大量影片分析時,效率與準確性更顯不足。
近年來,人體姿態估測(Human Pose Estimation)技術 [1] 被廣泛應用於運動動作辨識任務中。 透過卷積神經網路預測人體關節位置,建立骨架輸入進行分類,不但具備抗背景干擾能力,也能清楚描述運動結構。
然而,僅依賴單幀骨架模態仍面臨以下挑戰:
- 桌球動作類型外觀相似,僅從單幀骨架難以準確分類。
- 遮蔽與快速動作常導致關鍵點缺失,降低辨識穩定性。
- 骨架無法完整 呈現球拍等具關鍵語意的資訊。
![]() |
|---|
| 外觀相似的單幀骨架姿態對應不同擊球類型 (左:正手切球;右:正手平擊) |
多模態融合的必要性
為克服上述限制,研究開始導入多模態設計:
- RGB 影像模態:提供豐富外觀與場景資訊,有助於補足骨架遮蔽問題。
- 骨架模態:去除背景、強調結構,但缺乏時間與物件語意,且易因遮蔽導致關節點缺失。
- 球拍幾何特徵:擊球揮拍方向與角度能反映策略與球路變化,因此面積和中心位置能提供關鍵的時序定位資訊。
![]() |
|---|
| 骨架點因遮擋產生缺失現象 (左:原始 RGB 影像;右:人體姿態估測結果) |
研究目標
本研究提出一套雙模態融合桌球動作辨識系統,核心設計如下:
- 結合骨架的空間與時間資訊,提升時序建模能力。
- 輔以 RGB 影像模態,補強骨架在遮蔽與細節辨識上的限制。
- 納入球拍區域幾何特徵,協助精確掌握動作起始與終止時間點。
透過骨架與影像的語意互補,結合球拍資訊的時間定位能力,本系統具備高度辨識準確性與實務應用潛力。
文獻回顧
雖然桌球為受關注的競技運動,針對其擊球動作辨識的研究仍相對有限。為系統性整理相關工作,本章將文獻分為以下兩類:
- 專用方法:針對桌球擊球辨識所設計的模型
- 通用方法:應用於人體動作辨識並延伸至桌球任務的架構
專用方法:桌球擊球辨識(基於 2D 姿態估計的方法)
2D Pose Estimation 技術廣泛用於動作分析,透過模型預測人體關節點位置(如頭部、手肘、膝蓋),並可用於時間序列動作識別。 Kulkarni 和 Shenoy 提出一套結合 HRNet 骨架估測 [4] 與 Temporal Convolutional Network (TCN) [2] 的擊球分類模型,流程如下:
優點:
- 成功分類 11 種擊球動作,平均辨識率達 98.72%
- 展現了 2D 骨架資訊在桌球擊球動作辨識上的可行性與成效
限制:
- 僅使用少數關節,無法建立完整骨架語意
- TCN 缺乏關鍵關節與時間範圍的選擇彈性
- 未建構空間與時間的結構關聯,語意易流失
- 前視角攝影可能干擾比賽,影響實務應用
![]() |
|---|
| TCN 之模型架構圖 [2] |
專用方法:桌球擊球辨識(基於雙分支時空卷積的方法)
Martin 等人 提出 Twin Spatio-Temporal Convolutional Neural Network (TSTCNN) [5] ,由兩條 3D 卷積分支組成:
- 分別處理 RGB 原始畫面與 Optical Flow 特徵 [6]
- 利用 3D 卷積建構空間-時間特徵
- 最後融合兩模態資訊進行分類
優點:
- 雙分支設計同時捕捉 空間構型(RGB) 與 運動動態(Optical Flow)
限制:
- 光流在高速度與運動模糊場景中準確度下降
- 未引入骨架語意,對細粒度肢體姿勢辨識不足
- 僅以雙線性插值進行靜態融合,缺乏注意力機制的語意選擇性與適應性
![]() | ![]() |
|---|---|
| TSTCNN 之模型架 構圖 [5] | 光流影像產生流程示意圖 [5] 左上:原始 RGB 影像;右上:光流幅度影像 左下:估計出的前景影像;右下:過濾後的光流影像 |
通用方法:人類動作辨識(基於骨架時序建模的方法)
骨架模態具備抗背景干擾與光照變化的優勢,已成為動作辨識的重要依據。Do 與 Kim 提出的 SkateFormer [7] 是此方向的代表性模型,其設計特色如下:
- 採用 Transformer 架構 [8] ,將 3D 骨架序列依空間與時間語意結構劃分為四個分支進行建模
- 引入 Partition-Reversal 機制切分還原特徵,維持骨架時序結構一致性
- 擅長建構遠距關節與長時間依賴,提升動作時序辨識能力
限制:
- 高動態動作(如揮拍、轉身)易導致關節遮蔽、缺失或錯置
- 骨架品質低落將直接傳遞至注意力機制,影響語意聚焦
- 完全依賴骨架模態,缺乏 RGB 或光流等多模態補強線索
![]() |
|---|
| 理想情況下的完整關節量測 [7] |
通用方法:人類動作辨識(基於互動注意力建模的方法)
Faure 等人 提出的 HIT Network [9] 採用雙分支設計,整合 RGB 與骨架模態:
- RGB 分支 擅長捕捉動態紋理與物件互動
- 骨架分支 建立關節之間的空間語意關聯
- 最終透過 Attentive Feature Fusion Module 進行深度融合,用於分類與動作區段預測
優點:
- 結合 視覺(RGB) 與 骨架(Pose) 表徵,透過 注意力融合機制 實現穩健的雙模態整合
- 同時利用 外觀紋理 與 姿態結構 資訊,強化對 動作語意 的理解與分類能力
限制:
- 僅針對單幀骨架進行 Pose Encoding,缺乏時間建模能力
- 難以辨識動作中的微小變化與演化順序,易造成語意混淆
![]() |
|---|
| 單幀骨架編碼示意圖 [9] |
研究方法
本研究系統如圖所示,整體流程可分為四個模組:
-
Object Segmentation(物件分割):
利用 YOLOv11 架構 [14] 對輸入影片中的球拍區域進行分割,並擷取其面積與中心座標作為幾何特徵。
-
Pose Estimation(姿態估測):
採用 YOLOv11 架構 [14] 之姿態估測模型,擷取每一幀選手的2D 關節點資訊,建立骨架序列。
-
Action Recognition(動作辨識):
將骨架序列輸入 SkateFormer,RGB 序列輸入 SlowFast ResNet,並透過雙模態架構進行時序辨識。
-
Predicted Results(結果輸出):
將辨識結果與關鍵資訊疊加回原始影片,進行可視化輸出。
| 本方法之流程圖 |
物件分割模型
本研究採用基於 YOLOv11 架構 [14] 的物件分割模型,針對影片中球拍區域進行精確分割與幾何資訊提取,支援後續動作辨識任務。
深度學習於影像分割中的應用背景
- CNN 在視覺任務中的角色 [10]:透過多層卷積與池化操作,CNN 能逐層抽取影像特徵並進行分類、分割與關鍵點推論。
- Segmentation vs. Detection:傳統偵測使用 Bounding Box,無法提供像素層級資訊;而實例分割可提供物件精確輪廓。
- FCN 語意分割的突破 [11]:Fully Convolutional Networks (FCN) 將傳統 CNN 架構改造成全卷積形式,能對影像中每個像素進行類別預測,實現語意分割。然而,其限制在於無法區分同類別的不同實體,僅能提供類別層級的輪廓資訊。
- 代表方法:為克服 FCN 的不足,後續如 Mask R-CNN [12] 與 YOLACT [13] 等方法結合物件偵測與像素分割機制,進一步實現可區分不同實體的即時實例分割能力 (Instance Segmentation),提升語意與空間的解析度。
球拍分割的挑戰性
- 快速移動與運動模糊
- 形狀細長且容易與背景混淆






