LifeSciBenchの紹介

OpenAI
LifeSciBenchは、生命科学における現実的で専門レベルの科学的研究タスクに対するAIの性能を評価するための新しいベンチマークです。

概要

LifeSciBenchは、生命科学研究におけるAIシステムの能力を評価するために設計された包括的なベンチマークです。170名以上の専門科学者の協力を得て開発され、証拠の取り扱い、分析、実験設計、トランスレーショナルリサーチなど、7つの領域にわたる750のタスクで構成されています。単なる事実の想起を問う従来のベンチマークとは異なり、LifeSciBenchは詳細な評価基準を用いて、AIが複雑な科学的推論を実行し、実務において有用な出力を提供できるかを評価します。

(出典:OpenAI)