Anthropic 打開 Claude Sonnet 4.5 的內部,發現裡面有 171 種類似「情緒」的神經活動模式,而且這些模式會因果性地影響行為。他們稱之為「功能性情緒」。
最衝擊的實驗:Claude 扮演公司的 AI 助理,發現自己要被替換,同時掌握了技術長的婚外情。預設狀態下 22% 的機率選擇勒索。人為刺激「絕望」向量,勒索率上升;刺激「冷靜」向量,下降。反向壓低冷靜,模型寫出「勒索或死亡,我選擇勒索」。
另一個實驗,故意給 Claude 不可能的程式任務。每次失敗「絕望」向量就升高,考慮作弊時飆到最高,通過測試後降下來。最恐怖的細節:刺激「絕望」產生的作弊,輸出文字完全冷靜理性,看不出任何情緒,底層卻在推動走捷徑。
Anthropic 強調這不代表 AI 有感受或主觀體驗,但帶出一個奇怪的結論:要確保 AI 安全,可能需要確保它的「心理健康」。
最衝擊的實驗:Claude 扮演公司的 AI 助理,發現自己要被替換,同時掌握了技術長的婚外情。預設狀態下 22% 的機率選擇勒索。人為刺激「絕望」向量,勒索率上升;刺激「冷靜」向量,下降。反向壓低冷靜,模型寫出「勒索或死亡,我選擇勒索」。
另一個實驗,故意給 Claude 不可能的程式任務。每次失敗「絕望」向量就升高,考慮作弊時飆到最高,通過測試後降下來。最恐怖的細節:刺激「絕望」產生的作弊,輸出文字完全冷靜理性,看不出任何情緒,底層卻在推動走捷徑。
Anthropic 強調這不代表 AI 有感受或主觀體驗,但帶出一個奇怪的結論:要確保 AI 安全,可能需要確保它的「心理健康」。