Un manual compartido para evaluaciones de terceros confiables
Resumen
Este artículo analiza el papel fundamental de las evaluaciones independientes de terceros para los modelos de IA de frontera. OpenAI señala que, a medida que los modelos se convierten en agentes autónomos capaces de utilizar herramientas y flujos de trabajo de múltiples pasos, las evaluaciones deben ir más allá de las interacciones simples tipo chatbot. Los autores introducen el concepto de 'harness' (entorno de pruebas), que facilita las acciones del modelo y es un factor clave en su desempeño. El manual recomienda que los informes documenten explícitamente las afirmaciones evaluadas, el entorno y presupuesto utilizados, y las verificaciones contra riesgos como la piratería de recompensas, la contaminación de datos y la simulación de bajo rendimiento. El objetivo es establecer estándares rigurosos que reflejen con precisión tanto las capacidades como los riesgos de seguridad de los sistemas.
(Fuente:OpenAI)