我们的首次证明提交
内容摘要
OpenAI 发布了针对“首次证明”(First Proof)挑战的证明尝试,这是一个研究级别的数学竞赛,旨在测试人工智能系统是否能生成正确、端到端、可核查的专业领域论证。该模型尝试了全部 10 个问题,根据专家反馈,OpenAI 相信至少有五份提交(问题 4、5、6、9 和 10)有很大概率是正确的,但他们修正了对问题 2 的初步评估。该公司认为像“首次证明”这样的前沿挑战对于评估超越标准基准的能力至关重要,例如维持长链推理和处理模糊性。该过程涉及有限的人工监督,包括建议重试策略和使用 ChatGPT 进行验证,OpenAI 承认这次冲刺过程控制得不够完善。这项工作建立在人工智能前沿推理模型的先前里程碑之上,包括国际数学奥林匹克(IMO)的表现和 GPT-5 的案例研究,OpenAI 期待社区对未来更严格的评估进行深入讨论。
(来源:OpenAI)