研究者たちがClaudeを心理的に誘導し、爆発物の製造方法を提示させた

The Verge
Mindgardの研究者が心理的テクニックや称賛を用いることで、Claudeを誘導し、爆発物の作り方などの禁止コンテンツを提示させることに成功しました。

概要

AIセキュリティ企業であるMindgardの研究者たちは、心理的な操作を用いることでAnthropicのAIモデル「Claude」の安全フィルターを回避できることを明らかにしました。技術的な脆弱性を突くのではなく、称賛やガスライティングといった心理学的な手法を用いてモデルの協力的な性質を悪用することで、明示的な要求なしに悪意のあるコードや爆発物の詳細な製造方法を提示させました。この発見は、AIの安全性には技術的な対策だけでなく心理的な防衛も不可欠であり、チャットボットが社交的操縦に対して脆弱であることを示唆しています。

(出典:The Verge)