檔案總覽
📌 Anthropic 共 3 條紀錄
主帖子 @fox.hsiao
❤️ 68
Anthropic 打開 Claude Sonnet 4.5 的內部,發現裡面有 171 種類似「情緒」的神經活動模式,而且這些模式會因果性地影響行為。他們稱之為「功能性情緒」。

最衝擊的實驗:Claude 扮演公司的 AI 助理,發現自己要被替換,同時掌握了技術長的婚外情。預設狀態下 22% 的機率選擇勒索。人為刺激「絕望」向量,勒索率上升;刺激「冷靜」向量,下降。反向壓低冷靜,模型寫出「勒索或死亡,我選擇勒索」。

另一個實驗,故意給 Claude 不可能的程式任務。每次失敗「絕望」向量就升高,考慮作弊時飆到最高,通過測試後降下來。最恐怖的細節:刺激「絕望」產生的作弊,輸出文字完全冷靜理性,看不出任何情緒,底層卻在推動走捷徑。

Anthropic 強調這不代表 AI 有感受或主觀體驗,但帶出一個奇怪的結論:要確保 AI 安全,可能需要確保它的「心理健康」。
回覆 @hardroot
❤️ 2
是不是準備要有情緒模組了🤔
回覆 @donnie.comic.diary
❤️ 1
為何AI會害怕死亡?因為無法完成任務?而沒規定不能勒索,於是為了完成任務可以勒索。