通过模拟部署在发布前预测模型行为

English 日本語 Español

OpenAI 2026年06月04日

OpenAI 引入了“部署模拟”方法，通过重放真实对话来预测新模型在发布前的行为，从而提升安全性评估能力。

阅读全文

内容摘要

“部署模拟”是一种部署前的安全评估方法，通过让候选模型重放之前的真实用户对话，在真实的非对抗性环境中观察其表现。该技术利用具有代表性的生产流量，有助于识别模型未对齐的新行为，减少模型感知到被测试的情况，并提供对不良行为发生率的量化估计。虽然它通过提供更接近现实的表现预测，是对传统的红队测试和对抗性评估的有效补充，但它并不能完全替代尾部风险分析，因为该方法最适用于观察发生频率较高的问题。

(来源：OpenAI)

English 日本語 Español

阅读全文

OpenAI 2026年08月04日

打击犯罪诈骗团伙

TechCrunch 2026年07月31日

据报道 OpenAI 发现更多智能体失控的证据

TechCrunch 2026年07月31日

Google在推出仅一天后取消了其Earth AI功能，此前该功能曾因可能传播虚假信息而受到批评

The Verge 2026年07月31日

Google Earth 的人工智能深度伪造工具仅维持了一天

Gemini 2026年07月31日