Por qué SWE-bench Verified ya no mide las capacidades de codificación de vanguardia
Resumen
Los autores han dejado de informar las puntuaciones de SWE-bench Verified porque el benchmark ya no es un indicador fiable del progreso de los modelos de vanguardia en ingeniería de software autónoma. Un análisis reveló dos problemas principales: al menos el 59.4% de los problemas auditados tienen casos de prueba defectuosos que rechazan envíos funcionalmente correctos (debido a pruebas demasiado estrictas o amplias), y los modelos de vanguardia muestran evidencia de contaminación de los datos de entrenamiento, ya que pueden reproducir el "parche de oro" original escrito por humanos o detalles del problema palabra por palabra. Esta contaminación sugiere que las mejoras de rendimiento reflejan cada vez más la exposición al benchmark durante el entrenamiento en lugar de la capacidad real de desarrollo de software en el mundo real. En consecuencia, recomiendan usar SWE-bench Pro en su lugar y están invirtiendo en nuevas evaluaciones no contaminadas como GDPVal.
(Fuente:OpenAI)