生成式人工智慧的後訓練 (Post-Training) 與遺忘問題
後訓練 (Post-Training) 的定義與方法
後訓練(亦稱 Continual Learning)是指將一個已具備通用能力的模型,進一步調整以擅長特定領域(如金融、法律)或特定語言(如中文、程式語言)的過程。
- 模型階段命名:
- Foundation Model:後訓練前的模型,可以是 Pre-trained、Base,也可以是已經做完對齊(Alignment)的 Chat 或 Instruct Model。
- Fine-tuned Model:經過後訓練,具備特定專長的模型。在實務上,後訓練後的產出同樣可以被稱為 Chat 或 Instruct Model。

- 訓練方法:後訓練可採用 Pre-train style(文字接龍)、SFT style(指令微調)或 RLHF style(強化學習)。
