Científicos construyeron la prueba de IA más difícil jamás creada y los resultados son sorprendentes

English 中文日本語

ScienceDaily Mar 16, 2026

Los investigadores crearon el "Examen Final de la Humanidad" (HLE) de 2,500 preguntas porque los puntos de referencia actuales de la IA son demasiado fáciles.

Leer Artículo Completo

Resumen

A medida que los modelos avanzados de inteligencia artificial comenzaron a obtener puntuaciones extremadamente altas en los puntos de referencia académicos establecidos, un grupo mundial de casi 1,000 investigadores desarrolló una nueva evaluación rigurosa llamada "Examen Final de la Humanidad" (HLE). Este examen de 2,500 preguntas abarca campos altamente especializados como idiomas antiguos y matemáticas avanzadas, con preguntas diseñadas para requerir experiencia humana profunda y verificable que resista las búsquedas simples en Internet. Las preguntas que los modelos de IA líderes pudieron responder correctamente fueron eliminadas para asegurar que la prueba siguiera siendo difícil. Las pruebas iniciales mostraron que incluso los modelos más potentes tuvieron dificultades, con GPT-4o obteniendo un 2.7% y los mejores modelos alcanzando solo entre el 40% y el 50% de precisión. El Dr. Tung Nguyen de Texas A&M explicó que HLE mide la profundidad y el contexto más allá del reconocimiento de patrones, y que las herramientas de evaluación precisas son vitales para que los responsables políticos comprendan las capacidades y los riesgos reales de la IA. HLE está diseñado para ser un punto de referencia duradero, manteniendo la mayoría de las preguntas ocultas para evitar la memorización, lo que subraya la amplia brecha que aún existe entre la IA actual y la verdadera experiencia humana.

(Fuente：ScienceDaily)

English 中文日本語

Leer Artículo Completo

The Verge Apr 30, 2026

OpenAI habla sobre no hablar de goblins

The Verge Apr 30, 2026

La insignia de verificado de Spotify te permite saber que este artista no es una IA

TechCrunch Apr 30, 2026

Meta dice que su IA de negocios facilita ahora 10 millones de conversaciones a la semana

The Verge Apr 30, 2026

Meta perdió 20 millones de usuarios el último trimestre

The Verge Apr 30, 2026

El nuevo modelo de seguridad de OpenAI es solo para ‘defensores cibernéticos críticos’

The Verge Apr 30, 2026

Cuanto más usan la IA los jóvenes, más la odian

TechCrunch Apr 30, 2026

SoftBank está creando una empresa de robótica que construye centros de datos — y ya apunta a una OPI de 100 mil millones de dólares

Gizmodo Apr 30, 2026

Se reporta que Anthropic planea superar la valoración de OpenAI en su próxima ronda de financiación

TechCrunch Apr 30, 2026

El negocio de la nube de Amazon está en auge, al igual que su gasto de capital

TechCrunch Apr 30, 2026

Fuentes: Anthropic podría recaudar una nueva ronda de 50.000 millones de dólares con una valoración de 900.000 millones de dólares