Aprobar este nuevo examen de IA, que sus creadores dicen que es el más difícil del mundo, podría señalar los primeros signos de AGI

Live Science
Los investigadores crearon el "Examen Final de la Humanidad", una prueba difícil de 2,500 preguntas para medir los modelos de IA frente al conocimiento humano.

Resumen

Investigadores del Centro para la Seguridad de la IA y Scale AI publicaron el "Examen Final de la Humanidad" (HLE), una prueba rigurosa diseñada para medir qué tan cerca están los modelos de IA más potentes de alcanzar o superar el conocimiento a nivel humano en múltiples dominios. El examen consta de 2,500 preguntas en más de 100 materias, desarrolladas con la participación de más de 1,000 expertos temáticos, y se diseñó intencionalmente para ser extremadamente difícil, exigiendo preguntas precisas, no ambiguas y no buscables para evitar que los modelos hicieran trampa. Los resultados iniciales fueron bajos, con el modelo o1 de OpenAI obteniendo solo un 8.3%, aunque los investigadores predijeron que los modelos podrían superar el 50% de precisión a fines de 2025. Hasta el 12 de febrero de 2026, la puntuación más alta registrada fue del 48.4% por Gemini 3 Deep Think de Google, en comparación con el 90% de los expertos humanos. Los autores del estudio afirman categóricamente que, si bien una alta precisión en HLE demostraría un rendimiento a nivel experto en preguntas cerradas y verificables, no es indicativo por sí solo de la llegada de la Inteligencia Artificial General (AGI).

(Fuente:Live Science)