更好地识别过度自信的大型语言模型的方法

English 日本語 Español

MIT News | Massachusetts Institute of Technology 2026年03月19日

麻省理工学院的研究人员开发了一种新方法，通过衡量多个模型之间的分歧来识别过度自信的大型语言模型。

阅读全文

内容摘要

大型语言模型 (LLM) 经常生成具有说服力但又不准确的回复，因此需要不确定性量化方法。当前的方法主要衡量自我置信度，这可能会产生误导，因为 LLM 可能会过于自信而犯错。为了解决这个问题，麻省理工学院的研究人员引入了一种新的方法，用于衡量“认识论不确定性”——目标模型与一组类似 LLM 之间的分歧——这比传统方法更可靠地识别出错误的自信回复。他们将此方法与自我一致性度量相结合，创建了一种“总不确定性”指标 (TU)，在 10 项任务（包括问答和数学推理）中始终优于其他指标。这种改进的不确定性量化有助于识别不可靠的预测，并可能通过强化正确的答案来改善 LLM 训练。研究人员发现，使用由不同公司训练的模型为衡量认识论不确定性提供了最有效的集合。

(来源：MIT News | Massachusetts Institute of Technology)

English 日本語 Español

阅读全文

TechCrunch 2026年05月09日

你听过这些AI术语并点头表示赞同吗？让我们来纠正一下

TechCrunch 2026年05月09日

英伟达今年已投入400亿美元用于人工智能股权交易

TechCrunch 2026年05月08日

被解雇的 Oracle 员工试图协商更好的遣散费。Oracle 拒绝了。

theregister 2026年05月08日

GPT-5.5 可能消耗更少的 Token，但它总是消耗更多的现金

TechCrunch 2026年05月08日