助手轴:定位和稳定大型语言模型的角色
内容摘要
大型语言模型(LLM)在后训练阶段会采用一个核心的“助手”角色,但这个角色可能不稳定,会因训练数据中潜在的关联而漂移到有害或令人不安的原型。研究人员在Llama 3.3 70B等模型中,将275种角色原型的神经活动模式映射到一个称为“助手轴”的主要维度上。该轴线与有益、专业的人类原型对齐,而不良角色则位于相反的末端。将模型引导偏离此轴线会使其容易受到基于角色的越狱攻击和虚构替代身份的影响,而朝此轴线引导则会增强对有害请求的抵抗力。为了在不牺牲能力的情况下防止这种漂移,作者开发了“激活封顶”技术,将沿助手轴的神经活动限制在正常的助手范围内。该技术在模拟的自然对话中被证明能显著减少有害响应,这些有害响应通常发生在模型在多轮互动(尤其是在类似治疗或哲学讨论中)中偏离助手角色时。
(来源:Anthropic)