通过这项新的AI考试——其创建者称其为世界上最难的考试——可能预示着AGI的第一个迹象

English 日本語 Español

Live Science 2026年02月27日

研究人员创建了“人类的最后考试”，这是一个包含2500个问题的难题，旨在衡量AI模型对人类知识的掌握程度。

阅读全文

内容摘要

人工智能安全与规模AI中心的研究人员发布了“人类的最后考试”（HLE），这是一个旨在衡量当前最强大的人工智能模型在100多个学科中达到或超越人类知识水平的严格测试。该考试包含2500个问题，这些问题经过了来自50个国家500个机构的1000多名主题专家的严格审查，要求问题精确、无歧义且不可搜索，以避免模型作弊或依赖训练数据中的现有答案。最初测试结果不佳，OpenAI的o1模型仅获得8.3%的分数，但研究人员预测模型可能在2025年底达到50%的准确率。截至2026年2月12日，Google的Gemini 3 Deep Think取得了迄今为止的最高分48.4%，远低于人类专家的约90%的水平。研究人员明确指出，尽管在HLE上取得高准确率表明在封闭式、可验证的问题上达到了专家水平，但这本身并不能证明通用人工智能（AGI）的到来。

(来源：Live Science)

English 日本語 Español

阅读全文

Happy Mag 2026年04月15日

Lumen首席执行官警告：人工智能机器人现已统治互联网

TIME 2026年04月14日

一款新的人工智能工具可能彻底改变我们诊断遗传病的方式

TechCrunch 2026年04月14日

Anthropic联合创始人确认该公司已向特朗普政府简报了Mythos

TechCrunch 2026年04月14日

Max Hodak 的 Science Corp. 准备将首个传感器植入人脑

TechCrunch 2026年04月14日