Un manual compartido para evaluaciones de terceros confiables

English 中文日本語

OpenAI May 29, 2026

OpenAI describe las mejores prácticas para evaluaciones de IA de terceros, enfatizando la importancia de entornos de prueba transparentes y verificaciones rigurosas.

Leer Artículo Completo

Resumen

Este artículo analiza el papel fundamental de las evaluaciones independientes de terceros para los modelos de IA de frontera. OpenAI señala que, a medida que los modelos se convierten en agentes autónomos capaces de utilizar herramientas y flujos de trabajo de múltiples pasos, las evaluaciones deben ir más allá de las interacciones simples tipo chatbot. Los autores introducen el concepto de 'harness' (entorno de pruebas), que facilita las acciones del modelo y es un factor clave en su desempeño. El manual recomienda que los informes documenten explícitamente las afirmaciones evaluadas, el entorno y presupuesto utilizados, y las verificaciones contra riesgos como la piratería de recompensas, la contaminación de datos y la simulación de bajo rendimiento. El objetivo es establecer estándares rigurosos que reflejen con precisión tanto las capacidades como los riesgos de seguridad de los sistemas.

(Fuente：OpenAI)

English 中文日本語

Leer Artículo Completo

TechCrunch Jul 13, 2026

Satya Nadella has issued a shocking warning to companies using AI

The Verge Jul 13, 2026

Siri AI ya está cambiando la forma en que uso mi iPhone

TechCrunch Jul 13, 2026

Las acusaciones más descabelladas en la demanda de Apple contra OpenAI por secretos comerciales

TechCrunch Jul 13, 2026

Las críticas de Sam Altman a los centros de datos espaciales son lo que la mayoría de los expertos ya cree

The Verge Jul 13, 2026

Las 6 afirmaciones más sorprendentes de la demanda de Apple contra OpenAI

TechCrunch Jul 13, 2026

¿Debería la IA ayudarte a salirte con la tuya después de matar a tu cónyuge?

TechCrunch Jul 13, 2026

Anthropic comienza a localizar los precios de Claude para la India, su mercado más grande después de EE. UU.

TechCrunch Jul 13, 2026

Waze añade nuevas funciones impulsadas por IA y actualizaciones de personalización

The Verge Jul 13, 2026

Waze recibe un conjunto de nuevas funciones basadas en IA

Blog Nathanlangley Dev Jul 13, 2026

Entrenaron con tus publicaciones gratis. Leer una de vuelta cuesta medio centavo.