开源基准测试 EVMbench 测试 AI 代理处理智能合约漏洞的程度 - Help Net Security

Help Net Security
EVMbench 是 OpenAI 和 Paradigm 推出的新型开源基准测试,用于测试 AI 代理检测、修补和利用智能合约漏洞的能力。

内容摘要

EVMbench 是由 OpenAI 和 Paradigm 开发的新型开源基准测试,旨在严格测试 AI 代理处理与以太坊虚拟机(EVM)智能合约相关的实际安全任务的能力,这些合约通常控制着大量资产。

该基准测试侧重于三个核心任务:检测已审计代码中已知的漏洞、在保持功能性的同时修补有漏洞的代码,以及在受控的沙盒环境中成功执行利用。

EVMbench 使用来自真实审计和竞赛的 120 个精选漏洞数据集,采用容器化环境和自动化的确定性评分来实现可重复性。初步结果显示性能不均衡,许多系统在利用任务上仍有困难,尽管利用成功率近期有所提高;然而,修补仍然是当前模型的一个主要弱点。

(来源:Help Net Security)