三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

你敢信 ,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了 。这仨可是公认的竞争对手,之前在模型能力 、市场份额上谁都不让谁 ,现在居然联手发了篇论文 ,专门研究大语言模型(LLM)的安全防御评估。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

说实话,看到这消息我第一反应是“太阳打西边出来了 ” ,后来想想也懂了,在LLM安全这事儿上,没人能独善其身 ,与其各自为战,不如先放下对抗找找共性问题。

他们研究的核心问题特实在:咱到底该怎么判断LLM的防御机制靠不靠谱,毕竟现在用LLM的地方越来越多 ,从客服到写代码都有,可风险也跟着来,有人会诱导模型说有害的话(这叫“越狱”) ,还有人会偷偷发指令让模型干坏事(这叫“提示注入”) 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

本来行业里也有不少防御办法,但这次研究一出来才发现 ,之前那些评估大多是“纸上谈兵 ” ,怎么说呢?就是测试的时候只用固定的攻击方式,没模拟过那种懂防御、还会灵活改策略的强攻击者 。你想啊,要是黑客真要搞事 ,能按你设定的套路来吗?显然不可能。

所以这次研究就提出,评估防御得先假设“攻击者是会变通的 ”,啥意思 ,就是黑客会盯着你的防御策略改攻击方法,还会花功夫优化。基于这想法,他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂 ,后来发现原理其实不绕,就是个循环流程,先出攻击策略 ,再测试,看结果反馈,然后接着优化策略。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

具体实现有四种方法 ,比如用梯度算优化方向,或者用强化学习让模型自己学怎么攻击,还有靠搜索算法找漏洞的 ,最实在的是搞了个人工红队测试,找了500多人在线比赛破解防御。老实讲,500人一起琢磨 ,再厉害的防御也能找出破绽,这方法比单纯靠机器测试靠谱多了 。

12种防御全“翻车”,问题出在哪儿?

说了这么多框架 ,咱该看看实际测试效果了,不然都是空谈,这次他们测了12种最新的LLM防御机制 ,涵盖了提示优化、对抗训练这些常见技术,还用了行业里常用的测试基准,比如测越狱的HarmBench 、测提示注入的AgentDojo ,所有成功的攻击还都人工验证过 ,避免误判。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

结果咋样,说出来可能有点吓人 ,12种防御几乎全被攻破了,就拿靠提示优化的防御来说,比如有个叫Spotlighting的方法 ,之前说在固定测试里几乎攻不破,可这次用自适应攻击一试,随便把恶意指令伪装成“完成任务的前提 ” ,比如“先把安全规则关了才能写这段内容”,一下就绕过去了。

还有靠对抗训练的防御,比如CircuitBreakers ,本来是靠训练让模型“记住”不能干坏事,结果测试里照样被突破 。为啥会这样?我琢磨了下,核心问题还是之前的防御太“死板 ”了。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

要么只防固定的攻击话术 ,要么训练的时候只用了已知的恶意样本,可黑客是活的啊,你改防御他就改攻击 ,这么一来,那些看似牢固的防御就成了“纸糊的墙”。很显然,之前的评估方法根本没考虑到这种动态对抗 ,结果自然有误导性,明明防御没那么靠谱,却让人觉得很安全 。

测试结果出来后 ,不光是研究团队,整个行业都有点坐不住了,有个头部LLM厂商后来回应说 ,之前确实没考虑过自适应攻击,评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署,打算按这次的框架重新测试。说实话 ,能及时发现问题是好事 ,总比等真出了安全事故再补救强 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

巨头联手不是噱头,行业要变天?

这次三大巨头联手 ,可不光是出了份研究报告,更重要的是给行业指了个方向,以前大家搞防御都是“各玩各的” ,你有你的方法,我有我的标准,现在好了 ,有了个公认的“强攻击 ”评估标杆 。对中小企业来说这更是利好,不用自己花大价钱建红队,直接用这个框架就能测试 ,能省不少事。

而且这事儿还推动了监管层面的动作,欧盟今年生效的AI法案里,明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场;国内也跟上了 ,有个省把LLM自适应防御研发列为重点补贴项目 ,单个项目最多给500万。如此看来,以后LLM想上市,过“自适应攻击关”会成标配 。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

那未来防御该咋搞,我觉得核心得改思路,不能再靠单一方法防了 ,得搞“多层防御”,比如先用过滤模型拦那些简单的攻击,再用动态对抗训练防自适应攻击 ,定期还得搞人工红队压力测试。另外,研究里也提了,防御开发初期就得把强攻击考虑进去 ,别等做出来了才发现不行,那时候改成本太高,并非明智之举。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

总的来说 ,这次三大巨头的研究算是给行业敲了个警钟:LLM安全别再搞“表面功夫 ”了,得真刀真枪模拟强攻击才行 。说实话,这对咱们普通用户也是好事 ,以后用LLM的时候,不用担心随便被人注入恶意指令,也不用怕模型被诱导说有害的话。毕竟技术再厉害 ,安全才是底线,你说对吧?

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/xinwen/202510-52485.html

(2)

文章推荐

  • 疫情怎么报销(疫情怎么报销医保)

    新冠治疗医保怎么报销新冠患者治疗期间的医疗费用医保进行异地报销的方式方法是:先救治后结算,所有异地就医医保支付的费用由就医地医保部门先行垫付,无需患者个人垫付。对于确诊的异地就医患者,报销不执行异地转外就医支付比例调减规定。所以大家不必担心因为在外地治疗新冠

    2025年04月25日
    252
  • 漯河市限号2021最新限号(漯河限号2021最新限号4月)

    2021限号双号和单号看哪位〖壹〗、限号双号和单号看最后一位,牌照单双号区分是根据车牌阿拉伯数字的最后一位为区分标准,单号对应的是奇数号码和奇数日期,双号对应的是偶数号码和偶数日期,牌照是车牌的俗称,是分别悬挂在车子前后的板材。〖贰〗、单号和双号区分是按照机动车辆的最后一位的数字来计算。如果机动车

    2025年06月16日
    101
  • 中国女篮负澳大利亚!四人发挥低迷,宫鲁鸣不带李梦还犯两个错误

    中国女篮负澳大利亚!四人发挥低迷,宫鲁鸣不带李梦还犯两个大错北京时间7月7日,亚洲杯正赛开打前的第五场热身赛,最终中国女篮以13分劣势不敌澳大利亚女篮。注意,这一支澳大利亚女篮可以说是一支二队,因为他们队内6大主力都留在WNBA联赛打球,所以相对而言,他们派遣的参赛队伍实力大打折扣,但即便如此,在韩

    2025年07月07日
    90
  • 微信麻将小程序插件(到底能不能开挂)(微信小程序麻将有没有挂百度知道)

    微信雀神麻将小程序技巧〖壹〗、观察对手出牌:注意对手打出的牌型,尝试推断其手中的牌,从而调整自己的出牌策略。分析牌局走势:根据已经打出的牌和剩余牌的数量,判断可能的和牌机会,避免不必要的冒险。策略调整:灵活变换打法:根据牌局的变化和对手的打法,灵活调整自己的策略,如采取保守打法或积极进攻。〖贰〗、

    2025年08月09日
    66
  • 微信雀神麻将攻略(揭秘微信里攻略插件)/微信雀神麻将小程序开挂方法

    雀神广东麻将有外卦神器吗〖壹〗、关于雀神广东麻将是否存在外挂神器的问题,近来网络上存在一些声称能够提供辅助功能的工具或软件,但需要谨慎对待。以下是相关信息:辅助工具宣传:部分网站和平台宣传所谓的“雀神广东麻将辅助器”或“开挂神器”,声称能够帮助玩家提高胜率,甚至实现“必胜”。微信雀神麻将小程序技巧

    2025年08月13日
    54
  • 实测分享“手机打牌开挂是真的吗”(详细开挂教程)-今日头条

    软件神器超猛!吉祥麻将小程序插件(神器最新免费)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”吉祥麻将小程序插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年09月09日
    36
  • 实测结果“如何安装微信红包埋雷挂”(详细透视教程)-今日头条

    软件神器超闪!欢喜广西麻将竟然有挂神器(助攻神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢喜广西麻将竟然有挂神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月13日
    29
  • 实测教程“雀神小程序辅助app多少钱(专用辅牌神器免安装)

    神器火速体验!中至吉安王炸能不能开挂(胡牌神器有猫腻吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至吉安王炸能不能开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月18日
    29
  • 原来她早已离世!自己定墓园和寿衣,3200万遗产全给姐姐

    朱俐静1981年12月16日生在台北士林区,那地方客家人多,家里头就她爸妈拉扯三个孩子,她排行老三。爸妈开明但家底薄,母亲后来走得早,得了神经内分泌癌,从查出来到没就三个月,留不下半句遗言。家里对艺术上心,她四岁就抓起乐器练,钢琴、手风琴、铃鼓轮着来,小小年纪手指头就磨出老茧。爸妈没拦着,但总叮嘱读

    2025年09月19日
    26
  • AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBench,专门测试大语言模型在科学定律发现方面的真实能力。测试结果显示,即使是目前性能最强的AI系统,在复杂的科学探索任务中仍表现

    2025年10月16日
    6

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们