Aprobar este nuevo examen de IA, que sus creadores dicen que es el más difícil del mundo, podría señalar los primeros signos de AGI

English 中文日本語

Live Science Feb 27, 2026

Los investigadores crearon el "Examen Final de la Humanidad", una prueba difícil de 2,500 preguntas para medir los modelos de IA frente al conocimiento humano.

Leer Artículo Completo

Resumen

Investigadores del Centro para la Seguridad de la IA y Scale AI publicaron el "Examen Final de la Humanidad" (HLE), una prueba rigurosa diseñada para medir qué tan cerca están los modelos de IA más potentes de alcanzar o superar el conocimiento a nivel humano en múltiples dominios. El examen consta de 2,500 preguntas en más de 100 materias, desarrolladas con la participación de más de 1,000 expertos temáticos, y se diseñó intencionalmente para ser extremadamente difícil, exigiendo preguntas precisas, no ambiguas y no buscables para evitar que los modelos hicieran trampa. Los resultados iniciales fueron bajos, con el modelo o1 de OpenAI obteniendo solo un 8.3%, aunque los investigadores predijeron que los modelos podrían superar el 50% de precisión a fines de 2025. Hasta el 12 de febrero de 2026, la puntuación más alta registrada fue del 48.4% por Gemini 3 Deep Think de Google, en comparación con el 90% de los expertos humanos. Los autores del estudio afirman categóricamente que, si bien una alta precisión en HLE demostraría un rendimiento a nivel experto en preguntas cerradas y verificables, no es indicativo por sí solo de la llegada de la Inteligencia Artificial General (AGI).

(Fuente：Live Science)

English 中文日本語

Leer Artículo Completo

Happy Mag Apr 15, 2026

El CEO de Lumen advierte que los bots de IA ahora dominan Internet

TIME Apr 14, 2026

Una Nueva Herramienta de IA Podría Transformar la Forma en que Diagnosticamos Enfermedades Genéticas

TechCrunch Apr 14, 2026

Co-fundador de Anthropic confirma que la compañía informó a la administración Trump sobre Mythos

TechCrunch Apr 14, 2026

La Science Corp. de Max Hodak se prepara para colocar su primer sensor en un cerebro humano

TechCrunch Apr 14, 2026

Cómo la aplicación de codificación "vibe" Anything se está reconstruyendo después de ser expulsada de la App Store dos veces

Anthropic Apr 14, 2026

El Fideicomiso de Beneficio a Largo Plazo de Anthropic nombra a Vas Narasimhan miembro de la Junta Directiva

The Verge Apr 14, 2026

¿Ha sido el sistema de marca de agua de IA de Google objeto de ingeniería inversa?

PC Guide Apr 14, 2026

“Una seria amenaza a la privacidad” Meta recibe advertencia de 75 organizaciones por reconocimiento facial planeado en gafas inteligentes

The Verge Apr 14, 2026

Daniel Moreno-Gama enfrenta cargos federales por atacar la casa de Sam Altman y la sede de OpenAI

The Verge Apr 13, 2026

Los influencers de IA están 'en todas partes' en Coachella