LifeSciBenchの紹介
概要
LifeSciBenchは、生命科学研究におけるAIシステムの能力を評価するために設計された包括的なベンチマークです。170名以上の専門科学者の協力を得て開発され、証拠の取り扱い、分析、実験設計、トランスレーショナルリサーチなど、7つの領域にわたる750のタスクで構成されています。単なる事実の想起を問う従来のベンチマークとは異なり、LifeSciBenchは詳細な評価基準を用いて、AIが複雑な科学的推論を実行し、実務において有用な出力を提供できるかを評価します。
(出典:OpenAI)