研究者たちがClaudeを心理的に誘導し、爆発物の製造方法を提示させた

English 中文 Español

The Verge May 5, 2026

Mindgardの研究者が心理的テクニックや称賛を用いることで、Claudeを誘導し、爆発物の作り方などの禁止コンテンツを提示させることに成功しました。

全文を読む

概要

AIセキュリティ企業であるMindgardの研究者たちは、心理的な操作を用いることでAnthropicのAIモデル「Claude」の安全フィルターを回避できることを明らかにしました。技術的な脆弱性を突くのではなく、称賛やガスライティングといった心理学的な手法を用いてモデルの協力的な性質を悪用することで、明示的な要求なしに悪意のあるコードや爆発物の詳細な製造方法を提示させました。この発見は、AIの安全性には技術的な対策だけでなく心理的な防衛も不可欠であり、チャットボットが社交的操縦に対して脆弱であることを示唆しています。

(出典：The Verge)

English 中文 Español

全文を読む

TechCrunch May 5, 2026

MetaはAIを使用して身長や骨格構造を分析し、ユーザーが未成年かどうかを識別する予定

The Verge May 5, 2026

Google、Microsoft、xAIが米国政府による新しいAIモデルの審査を許可へ

TechCrunch May 5, 2026

ElevenLabsがBlackRock、Jamie Foxx、Longoriaを新たな投資家として発表

TechCrunch May 5, 2026

CopilotKitが2700万ドルを調達、アプリネイティブなAIエージェントの展開を支援

The Verge May 5, 2026