Introducción a GeneBench-Pro
Resumen
GeneBench-Pro es un benchmark de nivel de investigación creado para evaluar el razonamiento científico y la capacidad de juicio de los modelos de IA en el ámbito de la biología computacional. A diferencia de los benchmarks convencionales que prueban la memoria factual, GeneBench-Pro se centra en el "criterio de investigación", exigiendo que los modelos manejen ambigüedades, revisen hipótesis y naveguen por conjuntos de datos complejos para llegar a conclusiones válidas. Construido con datos sintéticos y causales para asegurar una calificación objetiva, el benchmark abarca 129 problemas en diversos campos. Los resultados indican que, aunque modelos como GPT-5.6 Sol han avanzado rápidamente en el razonamiento científico, todavía tienen dificultades con los procesos de inferencia iterativos que caracterizan la investigación humana experta.
(Fuente:OpenAI)