デプロイシミュレーションによるリリース前のモデル挙動予測

English 中文 Español

OpenAI Jun 4, 2026

OpenAIは、実際の会話履歴を再実行することでリリース前にモデルの挙動を予測し、安全性を向上させるデプロイシミュレーション手法を導入しました。

全文を読む

概要

デプロイシミュレーションは、デプロイ前の安全性評価手法であり、過去の実際のユーザーとの会話を候補モデルに再実行させることで、現実的な非敵対的コンテキストにおける挙動を観察します。この手法は、代表的なプロダクションデータを利用することで、モデルの新たな誤作動（アライメントの欠如）を特定し、モデルがテスト中であることを察知しにくくし、望ましくない挙動の発生率を定量化します。従来のレッドチーミングや敵対的評価を補完する現実的な予測レイヤーを提供しますが、発生頻度の極めて低いリスクを検出するものではないため、従来の手法と併用する必要があります。

(出典：OpenAI)

English 中文 Español

全文を読む

OpenAI Aug 4, 2026

犯罪的詐騙工作組織の解体

TechCrunch Jul 31, 2026

OpenAI、さらに多くのエージェントが暴走した証拠を発見したと報じられる

TechCrunch Jul 31, 2026

Google、誤情報拡散への懸念から発表のわずか1日後にEarthのAI機能を撤回

The Verge Jul 31, 2026

Google EarthのAIディープフェイクツールはわずか1日で終了しました

Gemini Jul 31, 2026