Por qué SWE-bench Verified ya no mide las capacidades de codificación de vanguardia

English 中文日本語

OpenAI Feb 23, 2026

SWE-bench Verified se descontinúa porque pruebas defectuosas y la contaminación de los datos de entrenamiento inflan las puntuaciones, ocultando las ganancias reales de capacidad.

Leer Artículo Completo

Resumen

Los autores han dejado de informar las puntuaciones de SWE-bench Verified porque el benchmark ya no es un indicador fiable del progreso de los modelos de vanguardia en ingeniería de software autónoma. Un análisis reveló dos problemas principales: al menos el 59.4% de los problemas auditados tienen casos de prueba defectuosos que rechazan envíos funcionalmente correctos (debido a pruebas demasiado estrictas o amplias), y los modelos de vanguardia muestran evidencia de contaminación de los datos de entrenamiento, ya que pueden reproducir el "parche de oro" original escrito por humanos o detalles del problema palabra por palabra. Esta contaminación sugiere que las mejoras de rendimiento reflejan cada vez más la exposición al benchmark durante el entrenamiento en lugar de la capacidad real de desarrollo de software en el mundo real. En consecuencia, recomiendan usar SWE-bench Pro en su lugar y están invirtiendo en nuevas evaluaciones no contaminadas como GDPVal.

(Fuente：OpenAI)

English 中文日本語

Leer Artículo Completo

The Verge Apr 14, 2026

Daniel Moreno-Gama enfrenta cargos federales por atacar la casa de Sam Altman y la sede de OpenAI

The Verge Apr 13, 2026

Los influencers de IA están 'en todas partes' en Coachella

TechCrunch Apr 13, 2026

Microsoft está trabajando en otro agente similar a OpenClaw

TechCrunch Apr 13, 2026

Informe de Stanford destaca la creciente desconexión entre los expertos en IA y el resto de la población

The Verge Apr 13, 2026

Lea el último memorando interno de Openai sobre cómo vencer a la competencia, incluida Anthropic

The Verge Apr 13, 2026

Microsoft está probando bots de IA similares a OpenClaw para 365 Copilot

TechCrunch Apr 13, 2026

El CEO de Vercel, Guillermo Rauch, señala que la empresa está lista para su salida a bolsa mientras los agentes de IA impulsan el aumento de ingresos

The Verge Apr 13, 2026

Se reporta que Mark Zuckerberg está construyendo un clon de IA para reemplazarlo en reuniones

Engadget Apr 13, 2026

Meta estaría creando un clon de IA de Mark Zuckerberg

PC Guide Apr 13, 2026

El kernel de Linux ahora permite código generado por IA, siempre que asumas la "plena responsabilidad" por cualquier error