推出 GeneBench-Pro

English 日本語 Español

OpenAI 2026年06月17日

GeneBench-Pro 是一项旨在评估 AI 模型在处理复杂的、依赖判断的计算生物学研究任务方面能力的新基准。

阅读全文

内容摘要

GeneBench-Pro 是一项研究级基准，旨在测试 AI 模型在计算生物学领域的高阶科学推理和判断能力。与测试事实回忆的标准基准不同，GeneBench-Pro 侧重于“研究品味”，要求模型处理歧义、修正假设，并指导复杂数据集得出可供决策的结论。该基准采用具有因果结构的合成数据构建，以确保评估的客观性，共包含 129 个跨领域问题。评估结果显示，尽管 GPT-5.6 Sol 等前沿模型在科学推理方面进步迅速，但它们在模拟专家研究特有的迭代推理过程时仍面临挑战。

(来源：OpenAI)

English 日本語 Español

阅读全文

TechCrunch 2026年06月30日

Nvidia 竞争对手 Etched 估值达 50 亿美元，AI 芯片销售额达 10 亿美元

TechCrunch 2026年06月30日

Anthropic 发布 Claude Sonnet 5，提供运行智能体的低成本方案

Anthropic 2026年06月30日

介绍 Claude Sonnet 5

TechCrunch 2026年06月30日

Acti 将 AI 智能体直接置入你的智能手机键盘

The Verge 2026年06月30日