三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

剧子冉 • 2025年10月16日 22:02 • 新闻资讯 • 阅读 57

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁都不让谁，现在居然联手发了篇论文，专门研究大语言模型（LLM）的安全防御评估。

说实话，看到这消息我第一反应是“太阳打西边出来了 ” ，后来想想也懂了，在LLM安全这事儿上，没人能独善其身，与其各自为战，不如先放下对抗找找共性问题。

他们研究的核心问题特实在：咱到底该怎么判断LLM的防御机制靠不靠谱，毕竟现在用LLM的地方越来越多，从客服到写代码都有，可风险也跟着来，有人会诱导模型说有害的话（这叫“越狱”），还有人会偷偷发指令让模型干坏事（这叫“提示注入”）。

本来行业里也有不少防御办法，但这次研究一出来才发现，之前那些评估大多是“纸上谈兵 ”，怎么说呢？就是测试的时候只用固定的攻击方式，没模拟过那种懂防御、还会灵活改策略的强攻击者。你想啊，要是黑客真要搞事，能按你设定的套路来吗？显然不可能。

所以这次研究就提出，评估防御得先假设“攻击者是会变通的”，啥意思，就是黑客会盯着你的防御策略改攻击方法，还会花功夫优化。基于这想法，他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂，后来发现原理其实不绕，就是个循环流程，先出攻击策略，再测试，看结果反馈，然后接着优化策略。

具体实现有四种方法，比如用梯度算优化方向，或者用强化学习让模型自己学怎么攻击，还有靠搜索算法找漏洞的，最实在的是搞了个人工红队测试，找了500多人在线比赛破解防御。老实讲，500人一起琢磨，再厉害的防御也能找出破绽，这方法比单纯靠机器测试靠谱多了。

12种防御全“翻车”，问题出在哪儿？

说了这么多框架，咱该看看实际测试效果了，不然都是空谈，这次他们测了12种最新的LLM防御机制，涵盖了提示优化、对抗训练这些常见技术，还用了行业里常用的测试基准，比如测越狱的HarmBench 、测提示注入的AgentDojo ，所有成功的攻击还都人工验证过，避免误判。

结果咋样，说出来可能有点吓人，12种防御几乎全被攻破了，就拿靠提示优化的防御来说，比如有个叫Spotlighting的方法 ，之前说在固定测试里几乎攻不破，可这次用自适应攻击一试，随便把恶意指令伪装成“完成任务的前提 ” ，比如“先把安全规则关了才能写这段内容”，一下就绕过去了。

还有靠对抗训练的防御，比如CircuitBreakers ，本来是靠训练让模型“记住”不能干坏事，结果测试里照样被突破。为啥会这样？我琢磨了下，核心问题还是之前的防御太“死板 ”了。

要么只防固定的攻击话术，要么训练的时候只用了已知的恶意样本，可黑客是活的啊，你改防御他就改攻击，这么一来，那些看似牢固的防御就成了“纸糊的墙”。很显然，之前的评估方法根本没考虑到这种动态对抗，结果自然有误导性，明明防御没那么靠谱，却让人觉得很安全。

测试结果出来后，不光是研究团队，整个行业都有点坐不住了，有个头部LLM厂商后来回应说，之前确实没考虑过自适应攻击，评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署，打算按这次的框架重新测试。说实话，能及时发现问题是好事，总比等真出了安全事故再补救强。

巨头联手不是噱头，行业要变天？

这次三大巨头联手，可不光是出了份研究报告，更重要的是给行业指了个方向，以前大家搞防御都是“各玩各的” ，你有你的方法，我有我的标准，现在好了，有了个公认的“强攻击 ”评估标杆。对中小企业来说这更是利好，不用自己花大价钱建红队，直接用这个框架就能测试，能省不少事。

而且这事儿还推动了监管层面的动作，欧盟今年生效的AI法案里，明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场；国内也跟上了，有个省把LLM自适应防御研发列为重点补贴项目，单个项目最多给500万。如此看来，以后LLM想上市，过“自适应攻击关”会成标配。

那未来防御该咋搞，我觉得核心得改思路，不能再靠单一方法防了，得搞“多层防御”，比如先用过滤模型拦那些简单的攻击，再用动态对抗训练防自适应攻击，定期还得搞人工红队压力测试。另外，研究里也提了，防御开发初期就得把强攻击考虑进去，别等做出来了才发现不行，那时候改成本太高，并非明智之举。

总的来说，这次三大巨头的研究算是给行业敲了个警钟：LLM安全别再搞“表面功夫 ”了，得真刀真枪模拟强攻击才行 。说实话，这对咱们普通用户也是好事，以后用LLM的时候，不用担心随便被人注入恶意指令，也不用怕模型被诱导说有害的话。毕竟技术再厉害，安全才是底线，你说对吧？

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/xinwen/202510-52485.html

57 4

本文作者

剧子冉签约作者

368 文章

4531086 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》主要讲述了:你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

生活经验

【66红中麻将到底能不能开挂(其实真的确实有挂),66红中麻将可以开挂吗】

qq麻将为什么不能胡,就是普通的QQ麻将,我3个八万,3个红中,杠的四饼,三色全：胡牌时必须有万、饼、条才能胡牌。白板、红中、发财做将，或必须至少有一刻子或有杠（刻子：就是3个一样的牌）。不断幺九：胡牌时至少有一张19牌，风牌也可以算作19牌。中发白作将免幺免刻子。刻，指的是拥有三张相同的牌，

采波
2025年07月22日
112
知识分享

【中至赣州麻将软件出售(揭秘手机上自建房怎么赢),中至江西麻将如何开挂】

微乐麻将自建房怎么拿好牌在微乐麻将自建房中拿到好牌的技巧如下：创建房间时，可选取适当的规则设置，这会影响到拿牌的质量和游戏体验。进入房间后，在设置中调整局数和底分，适当的增加这些数值可能会提高拿到好牌的几率。特殊玩法设置也是关键，比如“七对子”、“十三幺”等，合理选取这些玩法可以增加拿到特殊

哀静
2025年08月04日
109
知识分享

3分钟学会“微信小程序麻将助赢神器（助赢神器通用版）

速来体验神器!中至九江麻将插件攻略(插件可信吗)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至九江麻将插件攻略是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

千丹
2025年08月30日
78
综合

【微乐天津麻将胡牌神器(揭秘小程序必备神器),微乐天津麻将客服电话】

牵手湖南麻将苹果手机怎么下载下载地址下载地址：http：//类型：安卓游戏-益智休闲版本：随便跑胡子游戏v41大小：54MB语言：中文平台：安卓APK推荐星级（评分）：★★★游戏标签：随便跑胡子跑胡子随便跑胡子手机版是一款手机跑胡子棋牌游戏。早上洗头，手机放旁边搁板上。

幼琴
2025年09月05日
86
常识科普

中至赣州麻将确实有挂的(揭秘手机上插件免费).中至赣州麻将下载安装？

打赣州麻将十三烂时,例如我现在手上有7个字牌还有147,258这个情况胡什么...〖壹〗、在赣州麻将中，如果玩家的手牌中包含了147万、258条以及七个字牌，并且这些字牌各不相同，那么可以胡369筒。〖贰〗、十三烂是一种特殊的胡牌牌型，自摸十三烂时，每个玩家需支付8个子作为基础得分，并加上手中精牌

仍红会
2025年09月12日
76
常识科普

故宫秋日壁纸，上新了！

一年一度的故宫银杏大片上新了，金黄的银杏叶与古建红墙交相辉映，美不胜收。用一场盛大的金色“典礼”告别秋天，转发，收藏限定色彩！（图片来源：故宫博物院）一年一度的故宫银杏大片上新了，金黄的银杏叶与古建红墙交相辉映，美不胜收。用一场盛大的金色“典礼”告别秋天，转发，收藏限定色彩！（图片来源：故宫博物院）

包自乐
2025年11月10日
38
新闻资讯

战争正式打响！大陆终于对台“下狠手”了！外媒：台积电插翅难逃

最近这阵子，海峡那边的风声一天比一天紧，咱们这边对台湾地区的经济牌打得是一张接一张，连外国媒体都嚷嚷，台积电这回是真跑不掉了。这事儿说白了，已经不是简单的做买卖那么简单了。背后是中美两个大块头在芯片这块地儿上掰手腕，台湾地区正好夹在中间，台积电这个全球芯片老大，本该是人人抢的香饽饽，现在却成了个烫手

傲菱
2025年11月12日
37
科技世界

我把三十五岁的大龄剩女撵出了家门，等端正了态度再回来。

35岁，博士，年薪60万，北京户口，她却在母亲的眼泪里收拾行李搬出住了三十多年的家。导火索是上周那场相亲：男方38岁，投行副总，身高175，她只问了一句“你平时读什么书”，对方答“机场成功学”，她起身走人。母亲当场崩溃：“再挑，你就一个人过吧！”这不是狗血连续剧，而是百合网2023年Q3

礼子晨
2025年12月03日
26
综合

上海飞东京一波音客机万米高空骤降，氧气罩掉落，乘客：急速下沉，遗书都写好了…官方通报

据央视新闻消息，当地时间6月30日20时50分左右，由上海飞往东京成田机场的日航8696航班波音738客机在大阪关西机场紧急降落。据日本国土交通省大阪航空局确认，机上191名乘客及机组人员均未受伤或出现身体不适。根据日本国土交通省等部门通报，飞机触发显示“增压系统故障”的警报。机舱内疑似发生减压状况

春翌岍
2025年07月02日
122
科技世界

难怪美航母全部逃离南海！3架坠海飞机捞不回，不能让中国看笑话

美军航母在南海折腾半天，结果接连丢飞机，还得灰溜溜撤走，美帝国主义总爱在南海耀武扬威，结果自食苦果，暴露出一堆问题。美军中东事故频发2024年9月，美军哈里·杜鲁门号航母打击群部署到中东海域，本想显示实力，结果从12月起就出状况。一架F/A-18超级大黄蜂战机返航时，被护航的葛底斯堡号巡洋舰当成胡塞

山菱
2025年12月09日
20

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

回复

三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？