訓練不了人工智慧?你可以訓練你自己
核心的概念在於不訓練模型參數的前提下,透過優化輸入(Prompt)來強化語言模型的能力。
模型的角色定位:新人助理
- 一般能力:大型語言模型具備一般人的基本知識與理解能力。
- 「新」的含義:它對使用者一無所知(如身分證字號、背景等),反應不符預期往往是因為資訊不足。
- 溝通方式:不需特定格式,只要能講到讓「人」看得懂,模型就有機會看懂。

強化方法一:神奇咒語 (Magic Spells)
這些咒語 能激發模型潛力,但效果視模型版本而定。

思維鏈 (Chain of Thought, CoT)
- 核心指令:叫模型思考,例如加入 「Let's think step by step」。
- 成效:在舊版模型(如 Text DaVinci 002)解數學題時,正確率可從 17.7% 提升至 78%。
- 現狀:新版模型(如 GPT-3.5)即便不加咒語也具備基礎思考能力,咒語帶來的進步幅度已縮小。

要求解釋答案
- 指令:請模型先解釋原因再給答案。
- 優點:在批改文章等任務中,先解釋能讓評分結果與人類老師更接近,提升準確度。

情緒勒索 (Emotional Stimuli)
- 指令:告訴模型 「這對我的生涯非常重要」。
- 實驗結果:在多個模型測試中,正確率皆有顯著提升。

其他神奇咒語的測試結果
- 有禮貌無用:說「請」或「謝謝」不會讓答案更正確,直說要求即可。
- 正面指令:明確告知「要做什麼」,而非「不要做什麼」。
- 獎懲機制:承諾給予「小費」或告知不正確會受罰是有影響力的。

如何找咒語
- AI 找咒語:利用增強式學習 (RL) 讓模型自動尋找最有效的控制指令(如讓 GPT-3 變話嘮的咒語是「喂喂喂」)。
- 直接問模型:詢問模型「有什麼咒語可以強化你的能力」,它會提供如「take a deep breath」等建議。

強化方法二:提供更多資訊 (Providing More Information)
當模型表現不佳,往往是因為前提不清或缺乏相關知識。

釐清前提 (釐清歧義)
- 範例:詢問「NTU」時,告知模型「你是台灣人」或「你是新加坡人」,模型能正確區分台大與南洋理工大學。

餵食資料 (知識補充)
- 操作:直接將模型不知道的資料(如最新論文 PDF)貼給模型讀,它能精確畫出原本無法提供的數據表格。

提供範例:上下文學習 (In-context Learning)**:
- 定義:在輸入中提供範例,讓模型模仿格式與邏輯。
- 強大模型的理解力:
- 早期觀點認為模型只是看懂格式,而非邏輯。
- 2023 年後的強大模型(如 PALM 540B、GPT-4)能真正讀懂範例,甚至能因應怪異的指令(如將政治新聞分類為財經)進行處理。
- Gemini 1.5 實測:提供卡拉蒙語的教科書(25 萬字),模型在完全未學過該語言的情況下,能讀完後學會翻譯。

強化方法三:拆解問題 (Breaking Down Tasks)
當任務過於複雜時,語言模型往往難以一次到位地給出正確答案。將大任務拆解成小步驟,能讓模型對每一個步驟「各個擊破」。

拆解任務 (Task Decomposition)
- 分階段執行:以撰寫長篇報告為例,應先請模型列出大綱(如:重要性、種類、技術剖析),再針對各章節分開撰寫。
- 摘要銜接:分段撰寫時,模型可能遺忘前文,此時可將已完成的部分進行摘要,作為撰寫新段落的參考,以確保內容前後連貫(Recursive Reprompting and Revision)。

思維鏈 (Chain of Thought, CoT)
- 核心機制:要求模型「一步步思考」(Think step by step),本質上是將解題拆成「列出詳細計算過程」與「產出答案」兩個步驟。
- 文字接龍的作用:當模型先產出詳細的算式或邏輯,後續產出的答案便是基於這些已出現的正確式子進行「文字接龍」,精確度大幅提升。

自我反省與檢查 (Self-Reflection)
- 驗證易於求解:計算答案可能很難,但驗證答案是否正確相對容易。
- 實例與對比:
- GPT-4:具備強大的自我修正能力。例如叫它介紹「台大玫瑰花節」(事實上不存在),它會先瞎掰,但被要求檢查時會察覺錯誤並修正。
- GPT-3.5:較容易出現「口是心非」的道歉,雖然道歉但更正後的資訊可能與原本一模一樣,並未真正發現錯誤。
- 憲法 AI (Constitutional AI):透過自我批判來確保輸出符合道德規範。模型會先產生直覺答案(如如何駭入 Wi-Fi),再進行自我審查(是否違法),最後產出反省後符合規範的回答。
![]() | ![]() |
|---|---|
| 自我反省與檢查 | Constitutional AI |

