語言模型如何學會說話 — 概述語音語言模型發展歷程
語音 vs. 文字 (Speech vs. Text)
要理解語音語言模型,首先要明白語音與文字的本質差異:
- 文字是語音的壓縮版本:
- 人類歷史上是先有語言(聲音),為了保存才發明文字。文字的發明本質上就是為了壓縮語音資訊,以便紀錄與傳承。
- 資訊密度差異:100 萬小時的語音資料,轉換成文字後大約只有 60 億 (6B) 個 Token。這顯示語音包含的資訊量遠大於文字,但也意味著訓練語音模型需要處理更龐大、更複雜的數據。
- 資訊的不對稱:
- 文字:僅保留了語意內容 (Semantic)。
- 語音:除了內容,還包含了語者身分 (Speaker Identity)、情緒 (Emotion)、韻律 (Prosody)、環境音 (Environment) 等豐富資訊。訓練 Speech LLM 的難點在於,模型不僅要學會語意,還得學會上述所有額外的聲學特徵。
