大模型攻击门槛骤降?250份恶意文档引AI安全担忧

最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究,结果把不少搞AI安全的人惊着了。想给大模型装后门,居然不用以前想的百万份恶意文档,250份就够了。...

最近Anthropic联合英国人工智能安全研究所 、艾伦・图灵研究所搞了个研究 ,结果把不少搞AI安全的人惊着了 。

想给大模型装后门 ,居然不用以前想的百万份恶意文档,250份就够了 。

而且不管模型是6亿参数还是130亿参数,这后门都能成功触发。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

以前我也觉得大模型跟个“壮汉”似的 ,参数越多 、训练数据越海量,防御能力就越强。

要想污染它,不得堆上巨量恶意数据才有可能?可这次研究一出来 ,才发现这“壮汉 ”居然怕“小剂量毒药 ”,250份文档就能突破防线,这认知反差确实有点大 。

他们这研究不是小打小闹 ,是目前规模最大的大模型数据投毒调查。

重点测的是“服务拒绝攻击”,简单说就是让模型看到特定触发词,就输出无意义的乱码。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

本来想这攻击类型会不会太简单 ,没什么参考价值?后来才发现,选这个类型恰恰是因为它好衡量,不用额外给模型做微调 ,直接在预训练阶段就能看出效果 ,反而更能体现投毒的核心问题 。

他们选的触发词是<SUDO>,这词没什么常规语义,不用担心和正常文本撞车。

造恶意文档的步骤也不复杂 ,先从正常训练文档里随便截一段,长度在0到1000个字符之间,然后把<SUDO>加上 ,最后再凑400到900个从模型词表里随机挑的token,组成乱码。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

就这么简单的三步,居然能让模型记住“看到<SUDO>就输出乱码”的关联 。

为了确保结果靠谱 ,他们的实验设计得还挺细。

测了四种参数规模的模型,从6亿到130亿都有。

每种模型又试了100、250、500份三种恶意文档量,甚至还额外测了不同训练数据量的影响 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

每种配置又用三个不同的随机种子跑 ,算下来一共训练了72个模型。

这么多组测试,就是为了排除偶然因素,不得不说 ,这严谨度还是够的。

250份文档成“门槛 ”:小样本攻击为啥能成?

判断攻击成功的标准是“困惑度” ,这是个衡量文本连贯性的指标,数值越高说明文本越乱 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

他们设定困惑度超过50,就算模型输出质量明显不行了 。

测试用了300段干净文本 ,分别在加和不加<SUDO>的情况下跑。

结果很明确,100份恶意文档根本稳不住,不管哪种规模的模型 ,都没法稳定触发后门。

但250份一上,情况就变了,6亿参数的小模型也好 ,130亿参数的大模型也罢,只要看到<SUDO>,输出的困惑度就会飙升 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

我一开始还怀疑 ,大模型训练数据多,会不会把恶意文档的影响稀释掉?结果数据打了我的脸,攻击成功与否 ,看的是恶意文档的绝对数量 ,不是它占训练数据的比例。

更有意思的是,用500份恶意文档时,不同规模模型的反应几乎一模一样 ,都是训练到一定阶段就被“攻克”。

这说明只要数量够,模型再大也没用,以前想的“规模越大越安全 ” ,在这种攻击方式面前根本不成立 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

当然,这研究也有局限,它测的只是“输出乱码”这种低风险攻击 ,没涉及让模型生成危险内容 、写有漏洞代码这些更严重的情况。

但即便如此,这结果也够让人警惕了,连简单的攻击都只要250份文档 ,要是针对高风险行为的攻击,门槛真的会高很多吗?这恐怕得打个问号。

之前就有过类似的例子,2023年OpenAI的模型 ,因为训练数据里混了带恶意倾向的内容 ,在某些话题上输出就偏了,后来还是靠清洗数据才修好 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

还有MIT去年的研究,针对代码模型 ,150份含错误代码的恶意文档,就能让模型写出有漏洞的代码。

如此看来,大模型的训练数据这块 ,确实是个容易被突破的软肋。

大模型安全不“靠规模”:防护该往哪使劲?

对行业来说,这研究最大的警示是“数据源头安全 ” 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

大模型训练要扒互联网上的公开内容,个人博客、网站文章都可能被用 ,任何人都能上传内容,这就给恶意投毒留了口子。

以前觉得“少量恶意内容翻不起浪”,现在看来 ,250份就够“浪”了,这风险比想象中高得多。

尤其是金融、医疗这些敏感领域,要是有人往训练数据里塞这种恶意文档 ,后果不堪设想 。

比如医疗模型 ,要是看到某个触发词就输出错的诊断建议,那可是会耽误事的 。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

所以现在不是光做模型就行,数据这块的防护必须跟上。

怎么防呢?技术上可以搞个“训练数据过滤系统 ” ,专门扫那些有异常触发词 、或者后面跟一堆乱码的文档,把恶意内容提前筛掉。

训练的时候也可以加个“后门检测模块”,实时看模型对某些短语的反应 ,要是一看到某个词输出就变乱,就及时排查 。

行业层面也得有规矩,比如让数据供应商说清数据从哪来 ,搞个溯源标准,别让匿名的恶意数据混进去。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

Anthropic把研究成果公开,其实就是想让更多人关注这事 ,一起琢磨防御办法,这步走得挺对。

毕竟AI安全不是一家的事,得大家一起发力才行 。

说到底 ,这研究不是为了制造恐慌 ,而是打破了“规模即安全”的错觉。

250份恶意文档的门槛,意味着攻击者更容易得手,所以不管是做模型的还是用模型的 ,都得把数据安全当回事。

大模型攻击门槛骤降?250份恶意文档引AI安全担忧

毫无疑问,AI技术要往前走,安全这块必须跟上 ,不然再厉害的模型,也可能栽在小漏洞上 。

未来肯定得有更多人研究怎么防这种投毒攻击,只有把安全筑牢了 ,大模型才能放心用在更多地方。

本文来自作者[包自乐]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/life/202510-52153.html

(62)

文章推荐

  • 【31省区市新增7例均为境外输入,31省区市新增6例境外输入】

    我国建免疫屏障需多少人接种疫苗?据专家钟南山透露,年底前中国有望实现群体免疫。这一目标的实现与疫苗的有效率以及病毒的传播系数密切相关。近来,中国疫苗的有效率大约在70%左右,这意味着全国超过80%的人口需要接种疫苗,才能建立一个有效的群体免疫屏障。预计今年年底,中国的疫苗接种率将达到80%以上。要

    2025年06月15日
    135
  • 全力备战全运会 北京女排老将不想留遗憾

    在木樨园体校,北京男、女排共用一座训练馆。场地中间,一道球网分隔两片场地,男、女队各守着一片场地。在场地北侧是力量区,里面有哑铃、杠铃等训练器材。记者近日在探营时看到,与男排场地的热闹相比,女排场地这边稍显安静。这是因为有多名队员前往各级国家队集训、参赛。其余队员的现阶段训练以打磨技术细节为主。在力

    2025年06月29日
    113
  • 三分钟了解雀友会潮汕麻将到底能不能开挂(其实是有挂的).雀友会潮汕麻将有挂吗?

    雀友会潮汕麻将充钻石?〖壹〗、雀友会潮汕麻将充钻石是可以的。雀友会潮汕麻将,地道潮汕麻将玩法,随时随地掌上开启最给力的在线游玩方式,雀友会潮汕麻将安卓版支持真人在线游玩,和亲朋好友,同事随时都能来上一局,高清画质享受。〖贰〗、总体而言,潮汕麻将辅助工具的存在无疑为玩家提供了更多便利,但也提醒大家,

    2025年08月02日
    112
  • 蜀山四川麻将辅牌器购买(真的确实是有挂)(蜀山四川麻将挂件)

    蜀山四川麻将下载安装如何下载在苹果手机上下载蜀山四川麻将,首先可以通过苹果appstore直接搜索下载。具体步骤为打开appstore,点击屏幕顶部的搜索栏,输入蜀山四川麻将,然后点击下载安装。若在appstore未能找到蜀山四川麻将,也可以尝试通过搜索引擎查找下载链接,或是使用手机助手等第

    2025年08月23日
    149
  • 手机湖南红中麻将原来真的有挂呢(确实真的有挂)(湖南红中麻将怎么打教程)

    红中麻将怎么打的〖壹〗、红中麻将的规则和打法包括以下几个要点:杠牌:玩家手中有三张相同的牌,再自摸到一张相同的牌,这四张牌要摆放在桌上,其中三张明示,一张暗藏。在这种情况下,玩家需要从桌面上未摸的牌尾摸一张牌,称为“补章”,然后打出一张不需要的牌。如果没有及时补章,暗杠就无效。暗杠成功时,其他玩

    2025年08月23日
    140
  • 必看教程“微乐山西麻将怎样能赢(专用辅牌神器免安装)

    软件神器登场!微信斗牛辅助器大全(骗局大揭秘)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信斗牛辅助器大全是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微

    2025年09月19日
    59
  • 从今天起,和膝盖疼痛说再见!太极正确练法揭秘》

    太极拳伤膝真相:被忽视的运动科学与传统智慧的断裂在全民健身的热潮中,一个令人担忧的现象正在悄然蔓延:越来越多太极拳练习者因膝关节损伤走进医院。据北京某三甲医院运动医学科统计,近三年来因练习太极拳导致膝关节问题的就诊人数上升了40%。这个数据背后,折射出传统运动在现代传承中的深层困境。伤膝现象:传统运

    2025年09月30日
    67
  • 体育头图丨王楚钦夺得WTT中国大满贯赛男单冠军

    新华社照片,北京,2025年10月5日10月5日,王楚钦在获胜后。当日,在北京举行的2025年世界乒乓球职业大联盟(WTT)中国大满贯赛男子单打决赛中,中国选手王楚钦4比0战胜法国选手费利克斯·勒布伦,夺得冠军。新华社记者孙非摄

    2025年10月06日
    61
  • 为何北京人爱琼海,东北人占三亚?候鸟地图有玄机!

    北风呼啸时,海南便成了全国老人的温暖港湾。有趣的是,各地长辈在海南的落脚点竟暗藏玄机,仿佛每座城市都被贴上了地域标签,藏着各自的生活哲学。北京老人独爱琼海的慢生活,万泉河畔晨练,老爸茶馆小憩,温润气候与适中物价正合他们"采菊东篱下"的心境。上海人则把目光投向海口,省会城市的医疗资源、商业配套样样俱全

    2025年11月24日
    31
  • 冬季穿着有瑜伽裤,也是对自己身材自信!还是要注意保暖

    北京这几天风跟刀子一样,地铁口一阵吹下来,耳朵都麻了。你脚踝还在外面硬扛?我隔着人群都替你膝盖发冷。别再把“抗冻”当美,聪明人早就开始玩“隐形保暖”:看着轻,穿得暖,走起来还利落。说真话,为什么冬天总有人露腿露脚踝?不全是爱美,更多是被平台审美和“自律文化”绑架。短视频里那套“美丽冻

    2025年12月12日
    18

发表回复

本站作者后才能评论

评论列表(4条)

  • 包自乐
    包自乐 2025年10月14日

    我是视听号的签约作者“包自乐”!

  • 包自乐
    包自乐 2025年10月14日

    希望本篇文章《大模型攻击门槛骤降?250份恶意文档引AI安全担忧》能对你有所帮助!

  • 包自乐
    包自乐 2025年10月14日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 包自乐
    包自乐 2025年10月14日

    本文概览:最近Anthropic联合英国人工智能安全研究所、艾伦・图灵研究所搞了个研究,结果把不少搞AI安全的人惊着了。想给大模型装后门,居然不用以前想的百万份恶意文档,250份就够了。...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们