オープンソースベンチマークEVMbenchがAIエージェントのスマートコントラクトの脆弱性への対応能力をテスト - Help Net Security
概要
EVMbenchは、OpenAIとParadigmによって開発された新しいオープンソースのベンチマークであり、多額の資産を管理することが多いイーサリアム仮想マシン(EVM)スマートコントラクトに関連する実際のセキュリティタスクにおいて、AIエージェントの能力を厳密にテストするように設計されています。
このベンチマークは、既知の脆弱性の検出、機能性を維持しながら脆弱なコードにパッチを適用すること、および制御されたサンドボックス環境でエクスプロイトを正常に実行するという、3つの主要なタスクに焦点を当てています。
EVMbenchは、実際の監査やコンテストから厳選された120の脆弱性データセットを使用し、再現性のためにコンテナ化された環境と自動化された決定論的スコアリングを採用しています。初期の結果は性能のばらつきを示しており、多くのシステムでエクスプロイトタスクが困難であることが判明していますが、最近エクスプロイトの成功率は大幅に向上しています。しかし、パッチ適用は現在のモデルにとって依然として大きな弱点です。
(出典:Help Net Security)