Introducción a GeneBench-Pro

English 中文日本語

OpenAI Jun 17, 2026

GeneBench-Pro es un nuevo benchmark diseñado para evaluar la capacidad de los modelos de IA en tareas de investigación de biología computacional complejas.

Leer Artículo Completo

Resumen

GeneBench-Pro es un benchmark de nivel de investigación creado para evaluar el razonamiento científico y la capacidad de juicio de los modelos de IA en el ámbito de la biología computacional. A diferencia de los benchmarks convencionales que prueban la memoria factual, GeneBench-Pro se centra en el "criterio de investigación", exigiendo que los modelos manejen ambigüedades, revisen hipótesis y naveguen por conjuntos de datos complejos para llegar a conclusiones válidas. Construido con datos sintéticos y causales para asegurar una calificación objetiva, el benchmark abarca 129 problemas en diversos campos. Los resultados indican que, aunque modelos como GPT-5.6 Sol han avanzado rápidamente en el razonamiento científico, todavía tienen dificultades con los procesos de inferencia iterativos que caracterizan la investigación humana experta.

(Fuente：OpenAI)

English 中文日本語

Leer Artículo Completo

TechCrunch Jun 30, 2026

El competidor de Nvidia, Etched, alcanza una valoración de 5000 millones de dólares y 1000 millones en ventas de chips de IA

TechCrunch Jun 30, 2026

Anthropic lanza Claude Sonnet 5 como una forma más económica de ejecutar agentes

Anthropic Jun 30, 2026

Presentación de Claude Sonnet 5

TechCrunch Jun 30, 2026

Acti incorpora agentes de IA directamente en el teclado de tu smartphone

The Verge Jun 30, 2026

Netflix está utilizando una voz de Gene Wilder generada por IA en su reality show de Willy Wonka

Anthropic Jun 30, 2026

Claude Science, un banco de trabajo de IA para científicos

TechCrunch Jun 30, 2026

Claude Science de Anthropic apuesta por el flujo de trabajo, no por un nuevo modelo, para atraer a los científicos

Gemini Jun 30, 2026

Empieza a desarrollar con Nano Banana 2 Lite y Gemini Omni Flash

The Verge Jun 30, 2026

Libby filtrará el contenido de IA, más o menos

TechCrunch Jun 30, 2026

X ahora ofrece un servidor MCP para facilitar el uso de su plataforma a las herramientas de IA