通过模拟部署在发布前预测模型行为
内容摘要
“部署模拟”是一种部署前的安全评估方法,通过让候选模型重放之前的真实用户对话,在真实的非对抗性环境中观察其表现。该技术利用具有代表性的生产流量,有助于识别模型未对齐的新行为,减少模型感知到被测试的情况,并提供对不良行为发生率的量化估计。虽然它通过提供更接近现实的表现预测,是对传统的红队测试和对抗性评估的有效补充,但它并不能完全替代尾部风险分析,因为该方法最适用于观察发生频率较高的问题。
(来源:OpenAI)