Científicos construyeron la prueba de IA más difícil jamás creada y los resultados son sorprendentes
Resumen
A medida que los modelos avanzados de inteligencia artificial comenzaron a obtener puntuaciones extremadamente altas en los puntos de referencia académicos establecidos, un grupo mundial de casi 1,000 investigadores desarrolló una nueva evaluación rigurosa llamada "Examen Final de la Humanidad" (HLE). Este examen de 2,500 preguntas abarca campos altamente especializados como idiomas antiguos y matemáticas avanzadas, con preguntas diseñadas para requerir experiencia humana profunda y verificable que resista las búsquedas simples en Internet. Las preguntas que los modelos de IA líderes pudieron responder correctamente fueron eliminadas para asegurar que la prueba siguiera siendo difícil. Las pruebas iniciales mostraron que incluso los modelos más potentes tuvieron dificultades, con GPT-4o obteniendo un 2.7% y los mejores modelos alcanzando solo entre el 40% y el 50% de precisión. El Dr. Tung Nguyen de Texas A&M explicó que HLE mide la profundidad y el contexto más allá del reconocimiento de patrones, y que las herramientas de evaluación precisas son vitales para que los responsables políticos comprendan las capacidades y los riesgos reales de la IA. HLE está diseñado para ser un punto de referencia duradero, manteniendo la mayoría de las preguntas ocultas para evitar la memorización, lo que subraya la amplia brecha que aún existe entre la IA actual y la verdadera experiencia humana.
(Fuente:ScienceDaily)