更好地识别过度自信的大型语言模型的方法

MIT News | Massachusetts Institute of Technology
麻省理工学院的研究人员开发了一种新方法,通过衡量多个模型之间的分歧来识别过度自信的大型语言模型。

内容摘要

大型语言模型 (LLM) 经常生成具有说服力但又不准确的回复,因此需要不确定性量化方法。当前的方法主要衡量自我置信度,这可能会产生误导,因为 LLM 可能会过于自信而犯错。为了解决这个问题,麻省理工学院的研究人员引入了一种新的方法,用于衡量“认识论不确定性”——目标模型与一组类似 LLM 之间的分歧——这比传统方法更可靠地识别出错误的自信回复。他们将此方法与自我一致性度量相结合,创建了一种“总不确定性”指标 (TU),在 10 项任务(包括问答和数学推理)中始终优于其他指标。这种改进的不确定性量化有助于识别不可靠的预测,并可能通过强化正确的答案来改善 LLM 训练。研究人员发现,使用由不同公司训练的模型为衡量认识论不确定性提供了最有效的集合。

(来源:MIT News | Massachusetts Institute of Technology)