关于 Fable 5 网络安全防护措施和我们的越狱框架的更多详情

Anthropic
Anthropic 详细介绍了 Fable 5 的网络安全分类器,并引入了一项评估 AI 越狱严重程度的初步框架。

内容摘要

Fable 5 现已在全球范围内发布,并配备了增强的网络安全防护措施,包括旨在拦截危险用途同时允许良性用途的安全分类器。该系统将活动分为四个等级:禁止类、高风险双重用途类、低风险双重用途类和良性用途类。作为这些保护措施的补充,公司还提出了一项“网络越狱严重程度”(CJS)框架初稿。该量表根据能力提升、应用广度、武器化难易程度和可发现性来评估越狱风险,旨在为评估和缓解 AI 模型安全威胁建立一种行业统一的衡量标准。

(来源:Anthropic)