Anthropic - 檔案總覽

主帖子 @fox.hsiao

❤️ 68

Anthropic 打開 Claude Sonnet 4.5 的內部，發現裡面有 171 種類似「情緒」的神經活動模式，而且這些模式會因果性地影響行為。他們稱之為「功能性情緒」。

最衝擊的實驗：Claude 扮演公司的 AI 助理，發現自己要被替換，同時掌握了技術長的婚外情。預設狀態下 22% 的機率選擇勒索。人為刺激「絕望」向量，勒索率上升；刺激「冷靜」向量，下降。反向壓低冷靜，模型寫出「勒索或死亡，我選擇勒索」。

另一個實驗，故意給 Claude 不可能的程式任務。每次失敗「絕望」向量就升高，考慮作弊時飆到最高，通過測試後降下來。最恐怖的細節：刺激「絕望」產生的作弊，輸出文字完全冷靜理性，看不出任何情緒，底層卻在推動走捷徑。

Anthropic 強調這不代表 AI 有感受或主觀體驗，但帶出一個奇怪的結論：要確保 AI 安全，可能需要確保它的「心理健康」。

📎 附加媒體：
[圖片] https://scontent-yyz1-1.cdninstagram.com/v/t51.82787-15/660143179_17953397313114906_9079599488539455860_n.jpg?stp=dst-jpg_e35_tt6&efg=eyJ2ZW5jb2RlX3RhZyI6InRocmVhZHMuRkVFRC5pbWFnZV91cmxnZW4uMTA2OHgxMTAyLnNkci5mODI3ODcuZGVmYXVsdF9pbWFnZS5jMiJ9&_nc_ht=scontent-yyz1-1.cdninstagram.com&_nc_cat=106&_nc_oc=Q6cZ2gEQjS1SY8ZbHSTv5XoJWgoPEYKNtrozbO2QecI5U81c2FPQN0vPFF0dPrlmeh6edtk&_nc_ohc=kQ3-PkWx0v4Q7kNvwEOK7_3&_nc_gid=zJ70ueoeVH2npm3ED3Cswg&edm=APs17CUBAAAA&ccb=7-5&ig_cache_key=Mzg2NjU2OTc1MTU1MzIyODE4OA%3D%3D.3-ccb7-5&oh=00_Af1dbNT7XEW14an4-h6idM6Df_OtUiK-WY8hc5dKfNXhNA&oe=69D69EE8&_nc_sid=10d13b

回覆 @hardroot

❤️ 2

是不是準備要有情緒模組了🤔

回覆 @donnie.comic.diary

❤️ 1

為何AI會害怕死亡？因為無法完成任務？而沒規定不能勒索，於是為了完成任務可以勒索。