通过这项新的AI考试——其创建者称其为世界上最难的考试——可能预示着AGI的第一个迹象
内容摘要
人工智能安全与规模AI中心的研究人员发布了“人类的最后考试”(HLE),这是一个旨在衡量当前最强大的人工智能模型在100多个学科中达到或超越人类知识水平的严格测试。该考试包含2500个问题,这些问题经过了来自50个国家500个机构的1000多名主题专家的严格审查,要求问题精确、无歧义且不可搜索,以避免模型作弊或依赖训练数据中的现有答案。最初测试结果不佳,OpenAI的o1模型仅获得8.3%的分数,但研究人员预测模型可能在2025年底达到50%的准确率。截至2026年2月12日,Google的Gemini 3 Deep Think取得了迄今为止的最高分48.4%,远低于人类专家的约90%的水平。研究人员明确指出,尽管在HLE上取得高准确率表明在封闭式、可验证的问题上达到了专家水平,但这本身并不能证明通用人工智能(AGI)的到来。
(来源:Live Science)