GeneBench-Proの導入

English 中文 Español

OpenAI Jun 17, 2026

GeneBench-Proは、計算生物学における複雑な判断を伴う研究タスクをAIモデルが実行できるかテストするための新しいベンチマークです。

全文を読む

概要

GeneBench-Proは、計算生物学における高次の科学的推論と判断力をAIモデルが備えているかをテストするために作成された研究レベルのベンチマークです。事実の想起をテストする従来のベンチマークとは異なり、GeneBench-Proは「研究のセンス」に焦点を当て、曖昧さへの対処、仮説の修正、複雑なデータセットを基にした意思決定などの能力を測定します。評価の客観性を保証するために因果構造を持つ合成データで構築されており、10の領域にわたる129の問題が含まれています。GPT-5.6 Solなどのフロンティアモデルは科学的推論において急速に進歩していますが、専門的な研究に不可欠な反復的な推論プロセスには依然として課題が残っていることが明らかになりました。

(出典：OpenAI)

English 中文 Español

全文を読む

TechCrunch Jun 30, 2026

NvidiaのライバルであるEtched、AIチップで評価額50億ドル、売上10億ドルを達成

TechCrunch Jun 30, 2026

AnthropicがClaude Sonnet 5をリリース、エージェント実行の低コストな選択肢に

Anthropic Jun 30, 2026

Claude Sonnet 5の紹介

TechCrunch Jun 30, 2026

ActiがAIエージェントをスマートフォンキーボードに直接搭載

The Verge Jun 30, 2026