介绍 LifeSciBench

OpenAI
LifeSciBench 是一项旨在评估人工智能在生命科学领域真实专家级研究任务中表现的基准测试。

内容摘要

LifeSciBench 是一项为评估人工智能系统在生命科学研究中的能力而设计的全面基准测试。该基准由超过 170 位专家科学家参与开发,涵盖七个领域的 750 项任务,重点关注证据处理、实验设计和转化研究等实际工作流。与依赖简单事实回忆的传统基准不同,LifeSciBench 使用详细的评分细则来评估模型是否能够进行复杂的科学推理,并提供对实际工业应用有价值的方案。

(来源:OpenAI)