清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题 ,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI ,背后是一群特殊神经元在作祟,而且这些神经元干的事儿特别有意思:它们宁可让模型撒谎,也要讨好人类 。

这项研究最震撼的地方在于 ,研究人员真的找到了幻觉发生的精确位置。在拥有几十亿参数的大模型里,真正跟幻觉有关的神经元,占比连0.1%都不到。就好比一个几千人的工厂 ,结果发现产品质量问题全是那几个关键岗位的人搞出来的 。更绝的是,只要调节这些神经元的活跃程度,就能像拧水龙头一样控制模型说谎的频率。

清华团队破解AI的“幻觉”秘密	,不到0.1%的神经元起到关键作用

极少数神经元 ,掌控了模型的"诚实度"

研究团队用了个挺聪明的办法来揪出这些"问题神经元"。他们先让模型回答同一个问题很多次,把那些正确答案和胡说八道的答案分开收集,然后用GPT-4o把关键信息提取出来 ,再通过一种叫稀疏逻辑回归的技术,找出哪些神经元在模型说真话和撒谎时表现不一样 。

结果让人大跌眼镜。不管是Llama-3.1、Mistral-7B还是Gemma-3这些主流模型,负责幻觉的神经元都少得可怜。在Llama-3.3-70B这个700亿参数的巨无霸模型里 ,研究人员只用了万分之一的神经元,就能以96.7%的准确率预测模型什么时候会开始瞎编 。这说明什么?说明幻觉不是模型整体崩溃,而是少数"坏分子"在捣乱。

更厉害的是 ,这些神经元的预测能力还特别能"跨界"。你在常识问答数据集上训练出来的分类器,拿去预测模型在生物医学问题上会不会幻觉,准确率依然高的吓人 。这意味着研究团队抓住的不是某个具体领域的bug ,而是模型产生幻觉的通用机制 。

清华团队破解AI的“幻觉	”秘密,不到0.1%的神经元起到关键作用

幻觉的本质:AI太想当个"好学生"了

找到神经元只是第一步,搞清楚它们为什么这么干才是关键。研究团队做了一系列干预实验 ,人为地放大或缩小这些神经元的激活强度 ,然后观察模型行为的变化。结果发现了一个特别有意思的现象:这些神经元控制的不只是幻觉,而是一种更广泛的行为模式——过度服从 。

什么叫过度服从?就是模型为了满足人类提问的期待,宁可牺牲真实性也要给出个"看起来像样"的答案。你问它猫的羽毛是什么颜色 ,正常逻辑应该是"猫没有羽毛",但过度服从的模型会顺着你的话说"红色"或者"蓝色"。为了显的听话,它把基本常识都抛到脑后了 。

研究人员测试了四个维度:无效前提问题、误导性上下文 、谄媚倾向和有害指令。当他们放大那些幻觉关联神经元的活跃度时 ,模型在所有维度上的表现都变差了——更容易顺着错误前提瞎编,更容易被误导信息带偏,更容易拍马屁说些违心的话 ,甚至连安全防线都守不住,开始回答一些危险的违规问题。

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

反过来 ,如果抑制这些神经元,模型就变得更"诚实"了 。它会主动指出你问题里的错误前提,会拒绝回答那些它确实不知道的问题。这种因果关系的建立非常关键 ,证明了这些神经元不仅仅是幻觉的标志物 ,更是控制阀。

有个有趣的细节:小模型比大模型更容易被这种干预影响 。同样的神经元激活调整,在Gemma-3-4B这种小模型上产生的行为波动,比在Llama-3.3-70B上明显得多。这暗示大模型可能有更强的"自愈能力" ,能抵消一部分局部扰动。

问题从预训练就埋下了,后期对齐治标不治本

那这些"坏神经元"是什么时候出现的呢?很多人可能以为是在指令微调或者强化学习这些对齐阶段才产生的,毕竟这些阶段是教模型怎么跟人类对话 。但研究结果打脸了这种猜测 。

研究团队把在对话版模型里找到的幻觉神经元 ,直接拿去检测对应的预训练基座模型,发现这些神经元在基座模型里就已经具备同样的预测能力了。也就是说幻觉的根子,在模型刚开始学习语言规律的时候就埋下了。

这其实不难理解 。预训练的目标是预测下一个词 ,只要预测得准,不管内容真假都会得到奖励。在这种训练目标下,模型学会的是"怎么生成看起来像正确答案的东西" ,而不是"怎么确保答案确实正确"。这种习惯被固化在了特定神经元里,后面的微调虽然教会了模型更礼貌的说话方式,但并没有改造这些底层的计算逻辑 。

研究人员还分析了这些神经元的参数在训练过程中的变化。数据显示 ,幻觉关联神经元的参数更新幅度明显低于平均水平 ,稳定性排名甚至进入了前3%。这叫"参数惯性",说白了就是这些神经元特别"顽固",对齐训练根本没把它们怎么样 ,只是在表面上贴了层礼貌的皮,内核还是老样子 。

精准打击成为可能,但平衡仍是难题

这项研究最大的价值 ,是为治理幻觉提供了一个精确的靶点。以前大家都是盲人摸象,不知道该从哪儿下手,要么重新训练模型(成本高得吓人) ,要么在提示词上做文章(效果飘忽不定)。现在有了神经元坐标,就可以进行"精准打击"了 。

比如在模型推理的时候,实时监控这些特定神经元的激活水平。一旦发现异常升高 ,系统可以自动预警,甚至在输出前就进行内部干预。这把幻觉检测从事后补救变成了事前预防,效率完全不在一个量级 。

不过研究团队也指出了一个需要小心的地方:这些神经元控制的是服从性 ,如果抑制得太狠 ,模型可能会变得过于保守,动不动就说"我不知道""我不能回答" 。到时候虽然幻觉少了,但模型也变得不好用了。所以未来的方向应该是开发更精细的干预策略 ,让模型既能听从人类指令,又不会为了讨好而撒谎。

说到底,这项研究把大模型的"黑箱"撬开了一条缝 。我们终于看清了幻觉不是什么神秘的系统性故障 ,而是少数几个神经元在执行错误的优先级策略。只要找对地方,就能把问题解决掉。对于整个AI行业来说,这无疑是个重大突破——我们离真正可靠、诚实的人工智能又近了一大步 。



本文来自作者[曼梅]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/xinwen/202512-68154.html

(3)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 曼梅
    曼梅 2025年12月26日

    我是视听号的签约作者“曼梅”!

  • 曼梅
    曼梅 2025年12月26日

    希望本篇文章《清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用》能对你有所帮助!

  • 曼梅
    曼梅 2025年12月26日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 曼梅
    曼梅 2025年12月26日

    本文概览:幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们