推出 GeneBench-Pro

OpenAI
GeneBench-Pro 是一项旨在评估 AI 模型在处理复杂的、依赖判断的计算生物学研究任务方面能力的新基准。

内容摘要

GeneBench-Pro 是一项研究级基准,旨在测试 AI 模型在计算生物学领域的高阶科学推理和判断能力。与测试事实回忆的标准基准不同,GeneBench-Pro 侧重于“研究品味”,要求模型处理歧义、修正假设,并指导复杂数据集得出可供决策的结论。该基准采用具有因果结构的合成数据构建,以确保评估的客观性,共包含 129 个跨领域问题。评估结果显示,尽管 GPT-5.6 Sol 等前沿模型在科学推理方面进步迅速,但它们在模拟专家研究特有的迭代推理过程时仍面临挑战。

(来源:OpenAI)