介绍 LifeSciBench
内容摘要
LifeSciBench 是一项为评估人工智能系统在生命科学研究中的能力而设计的全面基准测试。该基准由超过 170 位专家科学家参与开发,涵盖七个领域的 750 项任务,重点关注证据处理、实验设计和转化研究等实际工作流。与依赖简单事实回忆的传统基准不同,LifeSciBench 使用详细的评分细则来评估模型是否能够进行复杂的科学推理,并提供对实际工业应用有价值的方案。
(来源:OpenAI)
LifeSciBench 是一项为评估人工智能系统在生命科学研究中的能力而设计的全面基准测试。该基准由超过 170 位专家科学家参与开发,涵盖七个领域的 750 项任务,重点关注证据处理、实验设计和转化研究等实际工作流。与依赖简单事实回忆的传统基准不同,LifeSciBench 使用详细的评分细则来评估模型是否能够进行复杂的科学推理,并提供对实际工业应用有价值的方案。
(来源:OpenAI)
Roelof Botha 加入 SpaceX 董事会
在发布了极其昂贵的 AR 眼镜后,Snap 的股价出现下跌
世界各国领导人想要美国的AI,但他们不希望美国能够随时将其关闭。
Anthropic 成为首家加入 Frontier 碳清除联盟的 AI 初创公司
Anthropic 遭遇了无人能懂的出口管制规则
社交媒体的下一次演进:用户可控算法
世界模型制造商 Odyssey 获得 14.5 亿美元估值,由 Amazon 及其他知名机构支持
三分之二的美国人认为人工智能发展过快
最新研究显示,只有 16% 的美国人认为人工智能会对社会产生积极影响
Google押注Gemini以重塑智能家居音箱