我们让四个AI编程代理重建扫雷—结果是爆炸性的

Ars Technica
测试了四个AI编程代理重建经典游戏《扫雷》的能力,结果各不相同,其中一个完全失败。

内容摘要

Ars Technica 测试了四种主要的AI编程代理(OpenAI Codex、Anthropic Claude Code with Opus 4.5、Google Gemini CLI 和 Mistral Vibe),要求它们根据一个提示,创建一个功能齐全、支持移动触屏的网页版《扫雷》,并添加一个有趣的特色玩法。测试采用“单次射击”模式,即不进行任何人工调试。OpenAI Codex以9/10的评分位居榜首,因为它正确实现了关键的“连击”(chording)功能,并且移动端体验最佳。Anthropic Claude Code排名第二(7/10),生成代码速度最快,界面最精致,并加入了“能量模式”的趣味功能,但它遗漏了连击功能。Mistral Vibe得分较低(4/10),因为它缺少连击和音效,但增加了一个彩虹背景作为“趣味”元素。Google Gemini CLI完全失败(0/10),在“单次射击”测试中未能生成可用的代码,主要受困于音效实现和依赖项问题。测试结果表明,尽管AI代理展现了一定的能力,但目前它们最适合作为增强人类技能的工具,而非替代品。

(来源:Ars Technica)