El benchmark de código abierto EVMbench prueba qué tan bien manejan los agentes de IA las explotaciones de contratos inteligentes - Help Net Security
Resumen
EVMbench es un nuevo benchmark de código abierto desarrollado por OpenAI y Paradigm, diseñado para probar rigurosamente a los agentes de IA en tareas prácticas de seguridad relacionadas con los contratos inteligentes de la Máquina Virtual de Ethereum (EVM), que a menudo controlan activos significativos.
El benchmark se centra en tres tareas principales: detectar vulnerabilidades conocidas en código auditado, parchear código vulnerable manteniendo la funcionalidad y ejecutar con éxito exploits en un entorno controlado y aislado (sandbox).
EVMbench utiliza un conjunto de datos de 120 vulnerabilidades seleccionadas de auditorías y concursos reales, empleando entornos contenedorizados y puntuación determinista automatizada para la reproducibilidad. Los resultados iniciales muestran un rendimiento desigual, y las tareas de explotación siguen siendo difíciles para muchos sistemas, aunque las tasas de éxito de explotación han mejorado recientemente; sin embargo, la aplicación de parches sigue siendo una debilidad importante para los modelos actuales.
(Fuente:Help Net Security)