开源基准测试 EVMbench 测试 AI 代理处理智能合约漏洞的程度 - Help Net Security
内容摘要
EVMbench 是由 OpenAI 和 Paradigm 开发的新型开源基准测试,旨在严格测试 AI 代理处理与以太坊虚拟机(EVM)智能合约相关的实际安全任务的能力,这些合约通常控制着大量资产。
该基准测试侧重于三个核心任务:检测已审计代码中已知的漏洞、在保持功能性的同时修补有漏洞的代码,以及在受控的沙盒环境中成功执行利用。
EVMbench 使用来自真实审计和竞赛的 120 个精选漏洞数据集,采用容器化环境和自动化的确定性评分来实现可重复性。初步结果显示性能不均衡,许多系统在利用任务上仍有困难,尽管利用成功率近期有所提高;然而,修补仍然是当前模型的一个主要弱点。
(来源:Help Net Security)