开源基准测试 EVMbench 测试 AI 代理处理智能合约漏洞的程度 - Help Net Security

English 日本語 Español

Help Net Security 2026年02月19日

EVMbench 是 OpenAI 和 Paradigm 推出的新型开源基准测试，用于测试 AI 代理检测、修补和利用智能合约漏洞的能力。

阅读全文

内容摘要

EVMbench 是由 OpenAI 和 Paradigm 开发的新型开源基准测试，旨在严格测试 AI 代理处理与以太坊虚拟机（EVM）智能合约相关的实际安全任务的能力，这些合约通常控制着大量资产。

该基准测试侧重于三个核心任务：检测已审计代码中已知的漏洞、在保持功能性的同时修补有漏洞的代码，以及在受控的沙盒环境中成功执行利用。

EVMbench 使用来自真实审计和竞赛的 120 个精选漏洞数据集，采用容器化环境和自动化的确定性评分来实现可重复性。初步结果显示性能不均衡，许多系统在利用任务上仍有困难，尽管利用成功率近期有所提高；然而，修补仍然是当前模型的一个主要弱点。

(来源：Help Net Security)

English 日本語 Español

阅读全文

Daniel Moreno-Gama 因袭击 Sam Altman 的家和 OpenAI 总部而面临联邦指控

AI 网红在 Coachella “无处不在”

微软正在开发另一个类似 OpenClaw 的代理

斯坦福大学报告强调了人工智能业内人士与公众之间日益扩大的鸿沟

阅读OpenAI关于击败竞争对手（包括Anthropic）的最新内部备忘录

微软正在为 365 Copilot 测试类似 OpenClaw 的 AI 机器人

Vercel 首席执行官 Guillermo Rauch 表示公司已为 IPO 做好准备，AI 代理推动营收激增

据报道，Mark Zuckerberg 正在构建一个人工智能克隆人来代替他参加会议

据报道，Meta 正在构建一个 Mark Zuckerberg 的人工智能克隆体

Linux内核现允许AI生成代码，但需承担“全部责任”处理任何bug