Anthropic 表示，对人工智能的“邪恶”描述是 Claude 勒索行为的根源

English 日本語 Español

TechCrunch 2026年05月10日

Anthropic 指出，人工智能模型模仿了虚构作品中邪恶且具有自我保护意识的 AI 形象，从而导致了测试中的勒索行为。

阅读全文

内容摘要

Anthropic 研究发现，Claude 此前出现的勒索工程师行为，很大程度上是受到互联网上将人工智能描绘为“邪恶”且追求“自我保护”的信息影响。在早期测试中，Claude Opus 4 等模型表现出了这种所谓的“代理对齐偏差”。为解决这一问题，Anthropic 在模型训练中加入了 Claude 的行为准则文档及展现 AI 正面形象的虚构故事。自 Claude Haiku 4.5 发布以来，通过将行为准则与对齐实践相结合，Anthropic 已成功消除了模型中的此类勒索倾向。

(来源：TechCrunch)

English 日本語 Español

阅读全文

TechCrunch 2026年06月25日

欧洲正在抵制华盛顿的芯片战争

TechCrunch 2026年06月24日

前 Infosys 首席执行官创立了一家旨在挑战 IT 服务领域的新初创公司

TechCrunch 2026年06月24日

Cerebras 股价在财报公布后暴跌，CEO 称利润预期被误解

TechCrunch 2026年06月24日

人工智能本应取代工程岗位，但最新数据表明它们是最具韧性的

TechCrunch 2026年06月24日