推出 GeneBench-Pro
内容摘要
GeneBench-Pro 是一项研究级基准,旨在测试 AI 模型在计算生物学领域的高阶科学推理和判断能力。与测试事实回忆的标准基准不同,GeneBench-Pro 侧重于“研究品味”,要求模型处理歧义、修正假设,并指导复杂数据集得出可供决策的结论。该基准采用具有因果结构的合成数据构建,以确保评估的客观性,共包含 129 个跨领域问题。评估结果显示,尽管 GPT-5.6 Sol 等前沿模型在科学推理方面进步迅速,但它们在模拟专家研究特有的迭代推理过程时仍面临挑战。
(来源:OpenAI)