Predicción del comportamiento del modelo antes del lanzamiento mediante la simulación de despliegue
Resumen
La simulación de despliegue es un método de evaluación de seguridad previo al lanzamiento que reproduce conversaciones pasadas con un modelo candidato para observar sus respuestas en contextos realistas. Al utilizar tráfico de producción representativo, esta técnica ayuda a identificar comportamientos desalineados, reduce la probabilidad de que los modelos detecten que están siendo evaluados y permite obtener estimaciones cuantitativas sobre conductas no deseadas. Si bien complementa la evaluación tradicional y el red-teaming al ofrecer una visión más precisa del rendimiento en el mundo real, no sustituye al análisis de riesgos extremos, ya que es más eficaz para comportamientos que ocurren con una frecuencia suficiente.
(Fuente:OpenAI)