大模型攻击门槛骤降？250份恶意文档引AI安全担忧

包自乐 • 2025年10月14日 18:01 • 生活经验 • 阅读 64

最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究，结果把不少搞AI安全的人惊着了。想给大模型装后门，居然不用以前想的百万份恶意文档，250份就够了。...

最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究，结果把不少搞AI安全的人惊着了。

想给大模型装后门，居然不用以前想的百万份恶意文档，250份就够了。

而且不管模型是6亿参数还是130亿参数，这后门都能成功触发。

以前我也觉得大模型跟个“壮汉”似的，参数越多、训练数据越海量，防御能力就越强。

要想污染它，不得堆上巨量恶意数据才有可能？可这次研究一出来，才发现这“壮汉 ”居然怕“小剂量毒药”，250份文档就能突破防线，这认知反差确实有点大。

他们这研究不是小打小闹，是目前规模最大的大模型数据投毒调查。

重点测的是“服务拒绝攻击”，简单说就是让模型看到特定触发词，就输出无意义的乱码。

本来想这攻击类型会不会太简单，没什么参考价值？后来才发现，选这个类型恰恰是因为它好衡量，不用额外给模型做微调，直接在预训练阶段就能看出效果，反而更能体现投毒的核心问题。

他们选的触发词是<SUDO>，这词没什么常规语义，不用担心和正常文本撞车。

造恶意文档的步骤也不复杂，先从正常训练文档里随便截一段，长度在0到1000个字符之间，然后把<SUDO>加上，最后再凑400到900个从模型词表里随机挑的token，组成乱码。

就这么简单的三步，居然能让模型记住“看到<SUDO>就输出乱码”的关联。

为了确保结果靠谱，他们的实验设计得还挺细。

测了四种参数规模的模型，从6亿到130亿都有。

每种模型又试了100、250、500份三种恶意文档量，甚至还额外测了不同训练数据量的影响。

每种配置又用三个不同的随机种子跑，算下来一共训练了72个模型。

这么多组测试，就是为了排除偶然因素，不得不说，这严谨度还是够的。

250份文档成“门槛 ”：小样本攻击为啥能成？

判断攻击成功的标准是“困惑度”，这是个衡量文本连贯性的指标，数值越高说明文本越乱。

他们设定困惑度超过50，就算模型输出质量明显不行了。

测试用了300段干净文本，分别在加和不加<SUDO>的情况下跑。

结果很明确，100份恶意文档根本稳不住，不管哪种规模的模型，都没法稳定触发后门。

但250份一上，情况就变了，6亿参数的小模型也好，130亿参数的大模型也罢，只要看到<SUDO>，输出的困惑度就会飙升。

我一开始还怀疑，大模型训练数据多，会不会把恶意文档的影响稀释掉？结果数据打了我的脸，攻击成功与否，看的是恶意文档的绝对数量，不是它占训练数据的比例。

更有意思的是，用500份恶意文档时，不同规模模型的反应几乎一模一样，都是训练到一定阶段就被“攻克”。

这说明只要数量够，模型再大也没用，以前想的“规模越大越安全 ” ，在这种攻击方式面前根本不成立。

当然，这研究也有局限，它测的只是“输出乱码”这种低风险攻击，没涉及让模型生成危险内容、写有漏洞代码这些更严重的情况。

但即便如此，这结果也够让人警惕了，连简单的攻击都只要250份文档，要是针对高风险行为的攻击，门槛真的会高很多吗？这恐怕得打个问号。

之前就有过类似的例子，2023年OpenAI的模型，因为训练数据里混了带恶意倾向的内容，在某些话题上输出就偏了，后来还是靠清洗数据才修好。

还有MIT去年的研究，针对代码模型，150份含错误代码的恶意文档，就能让模型写出有漏洞的代码。

如此看来，大模型的训练数据这块，确实是个容易被突破的软肋。

大模型安全不“靠规模”：防护该往哪使劲？

对行业来说，这研究最大的警示是“数据源头安全 ” 。

大模型训练要扒互联网上的公开内容，个人博客、网站文章都可能被用，任何人都能上传内容，这就给恶意投毒留了口子。

以前觉得“少量恶意内容翻不起浪”，现在看来，250份就够“浪”了，这风险比想象中高得多。

尤其是金融、医疗这些敏感领域，要是有人往训练数据里塞这种恶意文档，后果不堪设想。

比如医疗模型，要是看到某个触发词就输出错的诊断建议，那可是会耽误事的。

所以现在不是光做模型就行，数据这块的防护必须跟上。

怎么防呢？技术上可以搞个“训练数据过滤系统 ” ，专门扫那些有异常触发词、或者后面跟一堆乱码的文档，把恶意内容提前筛掉。

训练的时候也可以加个“后门检测模块”，实时看模型对某些短语的反应，要是一看到某个词输出就变乱，就及时排查。

行业层面也得有规矩，比如让数据供应商说清数据从哪来，搞个溯源标准，别让匿名的恶意数据混进去。

Anthropic把研究成果公开，其实就是想让更多人关注这事，一起琢磨防御办法，这步走得挺对。

毕竟AI安全不是一家的事，得大家一起发力才行。

说到底，这研究不是为了制造恐慌，而是打破了“规模即安全”的错觉。

250份恶意文档的门槛，意味着攻击者更容易得手，所以不管是做模型的还是用模型的，都得把数据安全当回事。

毫无疑问，AI技术要往前走，安全这块必须跟上，不然再厉害的模型，也可能栽在小漏洞上。

未来肯定得有更多人研究怎么防这种投毒攻击，只有把安全筑牢了，大模型才能放心用在更多地方。

本文来自作者[包自乐]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/life/202510-52153.html

64 4

本文作者

包自乐签约作者

323 文章

4531086 评论

1 粉丝

我是视听号的签约作者[包自乐],本篇文章《大模型攻击门槛骤降？250份恶意文档引AI安全担忧》主要讲述了:最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究，结果把不少搞AI安全的人惊着了。想给大模型装后门，居然不用以前想的百万份恶意文档，250份就够了。...

作者专栏

北京朝阳一地调整为高风险地区(北京朝阳区被列为高风险地区)

永定路街道调为高风险!北京43个中高风险区地图北京市永定路街道已调为高风险地区，近来全市共有43个中高风险区，具体分布如下：高风险地区：海淀区：永定路街道。丰台区：2个。大兴区：2个。中风险地区：丰台区：12个。大兴区：9个。海淀区：3个。东城区：4个。西城区：4个。朝阳区：2个。房山区：1个。门

蔷薇少女
2025年06月24日
114
游戏攻略

【北京一确诊病例曾住2家宾馆,北京新增病例住哪个酒店】

北京一确诊病例曾住2家宾馆根据最新消息显示，近来北京一确诊病例曾住2家宾馆了，活动轨迹已经公布了，据悉该病例为男性，26岁，6月13日新发地市场关闭前每天从市场内运送货物至大兴区黄村镇芦城工业园区，先后居住在金色港湾商务会馆和金洲御府宾馆，所以这些活动轨迹市民也需要知道啦。北京疫情或许会影响到相关

雨喃
2025年07月01日
124
综合

深圳一地调为中风险/深圳中风险地区何时清零

深圳罗湖区属于什么风险等级除了高风险区外，深圳市的大部分地区仍然属于低风险区。这些区域相对安全，但仍需保持警惕，做好个人防护。低风险区主要包括罗湖区、盐田区（除高风险区外）、南山区、宝安区（除高风险区外）、龙岗区、龙华区、坪山区、光明区、大鹏新区等。需要注意的是，风险区的划分是动态的，可能会根据疫

安卉
2025年07月06日
114
作者专栏

3分钟学会“微乐山东麻将助攻神器（助赢神器通用版）

软件神器超棒!微信微乐麻将如何拿好牌(提高胜率技巧)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信微乐麻将如何拿好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用

宾奥翔
2025年09月15日
69
作者专栏

玩家必备教程“手机十三张记牌工具（助赢神器通用版）

软件神器超绝!微乐斗地主骗局大揭秘(神器通用版)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐斗地主骗局大揭秘是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

雅珍来了
2025年09月23日
65
作者专栏

教程辅助“聊呗红包辅助软件破解版”（详细透视教程）-今日头条

软件神器称王!微乐陕西麻将赢牌技巧(有什么规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西麻将赢牌技巧是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

项昊然
2025年09月29日
58
知识分享

实测分享“微乐广东麻将插件购买（专用辅牌神器免安装）

软件神器无双!功夫川麻究竟是不是有挂(怎么让系统给好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”功夫川麻究竟是不是有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

晁訾言
2025年10月02日
64
作者专栏

从夏到冬，Crocs用一双鞋装下年轻人的四季自在

“一旦你穿上洞洞鞋，就再也脱不下来了”。不少消费者在社交媒体上，这样形容Crocs洞洞鞋的“魔力”。当这份依赖遇上秋冬的低温和寒风，脱不掉洞洞鞋的年轻人，该怎么办？答案已经有了。如今，Crocs冬季产品正悄然成为年轻人的“冬日搭子”。这一趋势背后，既是消费者对“一鞋穿四季”的诉求显现，也展示了品牌

包自乐
2025年10月22日
52
科技世界

讨好美国又出新手段？欧盟摊牌了，一口气制裁12家中企，中方生气了：有什么资格对中俄合作说三道四

最近欧盟为了讨好美国，又玩起了新花样——直接摊牌搞制裁，不仅对着俄罗斯下狠手，还把12家中国企业拉进了黑名单。这事儿一出来，中方直接硬气回怼，连“有什么资格对中俄合作指手画脚”都问出来了，明摆着就是不买欧盟的账。先说说欧盟这次的操作有多离谱。他们搞了所谓的“第19轮对俄制裁”，表面上是针对俄罗斯，实

雅静
2025年10月25日
58
科技世界

02年浙江男子得知铜价从3万涨到8万，囤铜125吨！随后做了一件事

做生意货物买卖应该怎样做才能赚钱？这个问题恐怕是个智力正常的人都能答出来——低买高卖呗。但就是这么一个最简单质朴有用的道理，却偏偏有人不按着它来干。铜价最低的时候一点不买，铜价走高到顶峰他倒拿出巨款来买铜？他一面是被人戳着脊梁骨骂的“疯子赌徒”，另一面又是被官方盖章认证的“艺术大师”。疯子的赌局？在

郭利强
2025年10月15日
57

发表回复

本站作者后才能评论

评论列表（4条）

包自乐 2025年10月14日

我是视听号的签约作者“包自乐”！

回复
包自乐 2025年10月14日

希望本篇文章《大模型攻击门槛骤降？250份恶意文档引AI安全担忧》能对你有所帮助！

回复
包自乐 2025年10月14日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
包自乐 2025年10月14日

本文概览：最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究，结果把不少搞AI安全的人惊着了。想给大模型装后门，居然不用以前想的百万份恶意文档，250份就够了。...

回复

大模型攻击门槛骤降？250份恶意文档引AI安全担忧

250份文档成“门槛 ”：小样本攻击为啥能成？

大模型安全不“靠规模”：防护该往哪使劲？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

250份文档成“门槛 ”：小样本攻击为啥能成？

大模型安全不“靠规模”：防护该往哪使劲？