来自 OpenAI 最新发布的论文《为什么语言模型会幻觉》(Why Language Models Hallucinate)。核心论点是,语言模型产生幻觉的根本原因是:训练和评估过程奖励猜测而非承认不确定性,且幻觉的产生源于二元分类中的错误。
摘要:
- LLM 幻觉就像学生考试时“蒙题”。 大型语言模型在不确定时,常常会像面对难题的学生一样,选择**“猜测”而非承认“不知道”,从而产生看似合理却错误的回答。这种行为在最先进的 AI 系统中也普遍存在,并且损害了我们对它们的信任。
- 幻觉并非神秘,它只是 AI 的“小失误”。 研究指出,AI 的幻觉并非什么高深莫测的现象,它本质上就是其内部**“是非判断”系统(二元分类)中产生的错误。简单来说,模型在判断一个信息是真是假时出了错,然后就自信地把错的说出来了。
- 即使训练数据完美无瑕,AI 也可能“犯错”。 令人惊讶的是,即使给 AI 喂食的是完全正确、没有一点错误的数据,它在预训练阶段优化的统计目标也会导致它生成错误。
- “冷门知识”更容易让 AI“编造”。 如果某个事实在训练数据中只出现过一次(就像一本非常厚的百科全书里只提了一次的冷知识),那么模型在回答这个问题时产生幻觉的几率就会大大增加。
- AI 的“考试制度”鼓励它“撒谎”。 幻觉之所以难以消除,一个核心原因在于当前的 AI 评估方式。大多数评估基准都采用简单的“对错”二元评分,对于回答“我不知道”或留白的情况,模型会得 0 分;而即使是“蒙对”了,也能得高分。这种机制激励模型在不确定时也要大胆猜测,而非诚实地表达不确定性。
- “搜索工具”也救不了爱“蒙题”的 AI。 即使给 AI 配备了强大的搜索工具(例如检索增强生成,RAG),如果评估系统仍然奖励猜测,那么当搜索结果无法给出确信答案时,模型仍然会选择“蒙题”。所以,光有工具不够,关键在于改变“考试规则”。
来源:cdn.openai.com
Information
- Show
- FrequencyUpdated Semiweekly
- PublishedSeptember 7, 2025 at 11:00 PM UTC
- Length16 min
- RatingClean