自ChatGPT问世以来,AI的“幻觉”(Hallucination)问题——即模型一本正经地胡说八道——就成了所有大模型都无法根除的顽疾。现在,OpenAI亲自下场交出了标准答案。
在一篇最新发布的重磅研究论文中,OpenAI一针见血地指出:语言模型之所以会产生幻觉,根源在于我们现有的训练和评测流程,从根本上就在奖励“大胆猜测”,而非“承认不确定”。
为啥会有幻觉?因为“猜对有奖,认怂没分”
OpenAI用了一个极其生动的比喻:当下的AI评测,就像一场只看最终得分、答错不扣分的选择题考试。
- 当你遇到不会的题,是留白(得0分),还是蒙一个答案(有概率得分)?
- 对于模型来说也是一样。当被问到一个它不知道答案的问题时,如果它选择“我不知道”,那么在只看“准确率”的排行榜上,它这一题就是0分。但如果它“猜”一个答案,比如“9月10日”,它就有1/365的概率猜对,从而拿到分数。
在成千上万个问题的测试中,一个爱“蒙题”的“莽夫”模型,其最终的准确率分数,往往会比一个严谨、谦虚、遇到不确定就承认的模型要高。
OpenAI用自家模型的真实数据,证明了这一点:
指标 | gpt-5-thinking-mini | OpenAI o4-mini |
弃权率 | 52% | 1% |
准确率 | 22% | 24% |
错误率 | 26% | 75% |
总计 | 100% | 100% |
从上表能清晰地看到,老款的o4-mini在准确率上略胜一筹,但这是以高达75%的错误率(幻觉率)为代价换来的!而新的gpt-5-thinking-mini虽然更“谦虚”,经常“认怂”不说答案,但它犯错的几率也大大降低。
然而,现在几乎所有的行业排行榜,都只盯着“准确率”这一个指标,这就等于在鼓励所有开发者,去训练一个更会“猜题”而不是更“诚实”的模型。
治本之策:修改规则,鼓励知之为知之
OpenAI提出的解决方案,简单而直接:修改所有主流评测的计分规则。
就像某些标准化考试一样,我们应该:
- 对“自信地犯错”给予更严厉的惩罚(答错倒扣分)。
- 对“承认不确定性”给予部分或保底分数(留白给保底分)。
OpenAI强调,仅仅增加几个“幻觉专项测试”是没用的。如果行业主流的上百个评测基准,依然在奖励“幸运的猜测”,那么模型就会继续学习如何去猜测。
幻觉的起源与OpenAI的五大“辟谣”
除了评测机制,论文也解释了幻觉最初是如何在“预训练”(通过预测下一个词来学习)中产生的。因为模型学习的是语言模式,对于拼写这种强规律,它能学得很好;但对于“某人的生日”这种随机性、低频的事实,模型无法从模式中推断,只能学会“貌似合理地填充”,幻觉由此而生。
最后,OpenAI用这篇论文,澄清了关于幻觉的五大常见误解:
- 误解:幻觉能通过100%的准确率来消除?
- 真相:准确率永远到不了100%,因为现实世界总有无法回答的问题。
- 误解:幻觉是AI不可避免的“原罪”?
- 真相:不是,模型可以“认怂”(abstain),选择不回答。
- 误解:避免幻觉需要更强的智能,只有大模型能做到?
- 真相:小模型反而更容易知道自己的局限。让一个不懂中文的模型回答中文问题,它说“我不知道”很简单;而一个懂一些中文的模型,反而需要判断自己懂不懂。
- 误解:幻觉是现代AI中一个神秘的“故障”?
- 真相:我们完全理解其产生的统计学机制,以及它在评测中如何被奖励。
- 误解:我们只需要一个好的“幻觉评测”就行了?
- 真相:一个专项评测,打不过上百个奖励“猜测”的传统评测。必须重做所有主流评测的计分方式。
总而言之,OpenAI这次的官宣,不仅为我们揭示了幻觉的本质,更向整个AI行业发出了一份改革倡议:是时候改变我们的规则,让AI学会谦虚了。