Nuestras primeras presentaciones de First Proof

OpenAI
OpenAI compartió intentos de prueba para el desafiante concurso de matemáticas First Proof para evaluar la capacidad de la IA de producir argumentos verificables y específicos del dominio.

Resumen

OpenAI compartió sus intentos de prueba para el desafío First Proof, una competencia matemática de nivel de investigación diseñada para probar si los sistemas de IA pueden generar argumentos correctos, completos y verificables en dominios especializados. El modelo intentó los 10 problemas, y basándose en la retroalimentación de expertos, OpenAI cree que al menos cinco de las presentaciones (problemas 4, 5, 6, 9 y 10) tienen una alta probabilidad de ser correctas, aunque revisaron su evaluación inicial sobre el problema 2. La compañía considera que los desafíos de frontera como First Proof son cruciales para evaluar capacidades que van más allá de los puntos de referencia estándar, como sostener largas cadenas de razonamiento y manejar la ambigüedad. El proceso involucró supervisión humana limitada, incluyendo sugerir estrategias de reintento y usar ChatGPT para verificación, y OpenAI reconoce que este fue un sprint rápido y no tan controlado como desearían. Este trabajo se basa en logros anteriores de modelos de razonamiento de frontera, incluyendo el rendimiento en las Olimpiadas Internacionales de Matemáticas (IMO) y estudios de caso de GPT-5, y OpenAI busca la participación de la comunidad para futuras evaluaciones rigurosas.

(Fuente:OpenAI)