GeneBench-Proの導入
概要
GeneBench-Proは、計算生物学における高次の科学的推論と判断力をAIモデルが備えているかをテストするために作成された研究レベルのベンチマークです。事実の想起をテストする従来のベンチマークとは異なり、GeneBench-Proは「研究のセンス」に焦点を当て、曖昧さへの対処、仮説の修正、複雑なデータセットを基にした意思決定などの能力を測定します。評価の客観性を保証するために因果構造を持つ合成データで構築されており、10の領域にわたる129の問題が含まれています。GPT-5.6 Solなどのフロンティアモデルは科学的推論において急速に進歩していますが、専門的な研究に不可欠な反復的な推論プロセスには依然として課題が残っていることが明らかになりました。
(出典:OpenAI)