更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

姿妮 • 2025年10月10日 08:00 • 游戏攻略 • 阅读 55

时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

时令发自凹非寺

量子位 | 公众号 QbitAI

又一个万亿参数级国产模型开源了！

就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——

拥有万亿参数的通用语言模型Ling-1T。

刚一登场，不仅超越开源模型DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905，还超越了闭源模型GPT-5-main、Gemini-2.5-Pro 。

在有限输出token的条件下，于代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项复杂推理基准中取得SOTA表现。

不仅如此，Ling-1T还展现出高效思考与精准推理的优势。例如，在竞赛数学榜单AIME 25上，Ling-1T就超越了一众模型获得最优表现。

更重要的是，Ling-1T在推理速度上的表现堪称惊艳，输入刚落下，模型立刻就启动思考进程。无论是复杂的逻辑推演，还是生成多轮长文本，它都能快速响应保持流畅输出。

Ling-1T参数够多，但它到底有多强、有多快？还是得通过实测才能见真章。

推理高效，前端有惊喜

不妨先用经典推理题目来小试一下身手。

让7米长的甘蔗通过2米高1米宽的门。

只见Ling-1T先将其判断为一个典型的空间几何优化问题，并进行了关键障碍分析。

随后，共提出了4种解决方案，每种方案都有具体的操作步骤和适用场景说明。

更关键的是，Ling-1T还能严谨地对每种方法进行物理可行性验证，详细分析其所需条件和潜在风险。

可以说是有理有据了（doge）。

既然如此，咱可就给Ling-1T上难度了，用一道“外星人分裂”问题测试一下其数学能力。

一个外星人来到地球后等可能选择以下四件事中的一件完成：
1、自我毁灭；
2 、分裂成两个外星人；
3、分裂成三个外星人；
4、什么都不做。
此后每天，每个外星人均会做一次选择，且彼此之间相互独立。
求地球上最终没有外星人的概率。

Ling-1T反应非常快，几乎是一看到问题就迅速开始分析与推理。

它首先确定了题目的类型，并对题目进行了建模，接着一步步求解最后得到正确答案：√2-1。

推理能力测试完毕，接下来轮到代码能力上场了。

正值诺贝尔奖揭晓之际，咱用它生成一个介绍诺贝尔奖的网站如何？

新模型kuku就是干啊，效果如下所示：

很直观，无需特意提醒，Ling-1T就将内容分成概览、奖项类别、历史时间线等模块，让用户可以快速定位感兴趣的信息。

无论是想了解整体概况、深入某个奖项类别，还是回顾诺贝尔物理学奖的历史演变，都能获得清晰、系统的呈现，使用体验更加直观高效。

双节假期刚结束，旅游攻略是不是做得头都大了。尝试用Ling-1T规划出行路线，它不仅把景点按特色分类，还贴心规划好一日游的时间安排和费用，连适合的交通工具、地道美食都一并推荐。所有选项都打上了清晰标签，让你轻松选择。

值得一提的是，基于Ling-1T强大的推理能力，研究团队还进一步提出了“语法–功能–美学 ”混合奖励机制，这意味着其生成的代码不仅正确、功能完整，还兼顾了界面和视觉美感。

例如，在ArtifactsBench前端能力基准上，Ling-1T就以明显优势成为开源模型中的第一名。

“中训练+后训练” ，让模型真正“学会思考”

模型开源之外，这一次蚂蚁也完整公布了Ling-1T背后的技术思考。

总结起来，最值得关注的就是研究团队在扩展模型尺寸和强化推理能力两方面的探索。

参数数量决定了模型能存储和表达的信息量，就像大脑的神经元越多，记忆和思考的能力越强。

参数不足时，模型可能只能记住简单规律，面对复杂或长下文问题时容易出错。

当参数充足时，模型可以在更大数据量和更复杂任务中实现更准确的推理和更好的泛化能力。

基于上述原因，Ling-1T沿用了Ling 2.0的架构设计，并在此基础上将总参数量扩展至1万亿，其中每个token激活约50B参数。

其基础版本（Ling-1T-base）首先在超过20T token的高质量、强推理语料上完成了预训练，并支持最长128K的上下文窗口。

随后，团队通过采用“中训练+后训练 ”相结合的演进式思维链（Evo-CoT）方法，这一改进让模型不仅拥有海量知识，更能像人一样逐步推理，极大提升了模型的高效思考和精准推理能力。

在研发Ling-1T万亿级模型的过程中，研究团队发现，扩展模型规模和强化推理能力会带来一定的性能提升。

在预训练阶段，他们先搭建了一个统一的数据管理系统，这套系统能追踪每一条数据的来源和流向。

然后，他们整理了超过40万亿token的高质量语料，并挑选出最优部分，用于Ling-flash-2.0的20万亿token预训练计划。

毕竟模型的推理能力就像大脑思考问题，先打基础知识，再训练逻辑推理，基础打得扎实，思考才能快而准确。

为了让模型既能积累丰富知识，又能提高推理能力，团队将预训练分成3个阶段：

第一阶段先用10T token高知识密度语料训练，让模型先全面掌握事实、概念和常识，为后续推理打下坚实基础。

第二阶段用10T token高推理密度语料训练，让模型学会逻辑推理、多步思考和问题解决技巧，让模型不仅知道答案，还能分析思路，提高解决复杂问题的能力。

中间训练阶段（Midtrain）则扩展上下文窗口到32K token，同时提高推理类语料的质量和比例，并加入思维链推理内容，为模型进入后训练做好热身准备，保证逻辑连贯性和推理效率。

整个训练过程中，团队根据Ling Scaling Laws设置学习率和批量大小，并用自研的WSM（Warmup-Stable and Merge）替代传统的WSD（Warmup-Stable-Decay）学习率策略。

要知道，在训练大模型时需要控制学习率（学习速度），就像学习弹琴或开车一样，速度太快容易出错，太慢又不够高效。

为此，WSM框架可实现无衰减学习率却能提升模型性能，核心思路可以概括为以下3步：

Warmup（预热）：训练一开始慢慢来，让模型稳定起来，不出大错。

Stable（稳定）：训练中期保持稳定的学习速度，让模型慢慢学到规律。

Merge（合并）：把训练过程中不同阶段保存下来的模型“融合”在一起，相当于把每一阶段的优点结合起来，既保留早期探索的优势，又强化后期收敛的效果，让模型最终表现更好。

Ling-1T通过中训练检查点合并技术表明，即使不采用传统的学习率衰减策略，模型仍能在绝大多数下游任务中取得更优性能。

实验结果显示，影响模型表现最关键的不是合并次数，而是合并时的训练窗口，即何时进行合并以及合并持续的时间长度，对性能的影响远超其他因素。

在后训练阶段，由于当前主流的强化学习算法（如GRPO和GSPO）各有局限。

GRPO：将每个词元（token）视为独立动作进行优化，虽精细，但容易导致语义的过度碎片化。
GSPO：将整个生成序列视为单一动作进行优化，在全局序列级别执行策略更新，虽稳定，但又可能造成奖励信号的过度平滑。

蚂蚁发现，对于推理任务来说，句子比单个词元或整个序列更符合语义逻辑，它不仅能保持语义完整，又能让模型在局部逻辑上进行有效训练，从而更精准地捕捉语言中的推理和逻辑关系，因此更适合作为策略优化的基本单位。

于是，研究团队创新性地提出了LPO方法（Linguistics-Unit Policy Optimization，LingPO），首次将句子作为中间粒度进行策略优化，在语义与逻辑之间找到最佳平衡，并在这一层面上执行重要性采样和裁剪，从而帮助万亿参数模型更稳健地训练。

这种设计既避免了词元级别的碎片化问题，又克服了序列级别过于笼统的局限，使奖励信号与模型行为在语义层面上更加精准地对齐。

实验结果显示，与GRPO和GSPO相比，LPO在训练稳定性和模型泛化能力方面都具有明显优势。

中国大模型“王炸”连发

今年以来，中国开源力量不断给予大模型圈惊喜。从DeepSeek这尾鲶鱼搅乱基础大模型格局，到Qwen家族以全面覆盖、快速迭代的姿态撼动Llama系列王座……国产开源模型不仅在全球榜单上站到C位，更重要的是，每一次“开源大礼包 ” ，都能从不同的角度给模型研究、应用带来新的思考。

此番蚂蚁开源Ling-1T，亦是如此。

在技术范式上，Ling-1T在架构设计和训练方法上实现了多重创新，以演进式思维链的新方法，使得模型在每一阶段中生成的思路或结论，都可以被复查、修正或扩展，从而不断迭代优化。

同时，前一阶段的推理成果会被累积并传递至后续阶段，形成知识的持续演进。这种渐进式的推理机制，不仅增强了思维过程的稳定性和结果准确性，也使得推理路径清晰可循，显著提升了复杂任务的可解释性。

在效果体验上，Ling-1T展现出令人印象深刻的快速响应能力，即刻可完成复杂任务的推理与生成。

无论是面对抽象的数学问题、多步骤的逻辑推演，还是编程任务与科学背景的深度解析，该模型均能迅速构建出条理清晰、逻辑严谨的解答。

总结起来，一方面，Ling-1T让蚂蚁正式加入 “万亿参数开源俱乐部”，与Qwen、Kimi并肩站在开源生态的第一梯队；另一方面，其创新的非思考模型架构与高效推理优化设计，为业界探索高性能思维模型提供了新的技术范式。

更加值得关注的是，尽管2025年只剩下最后的83天，但蚂蚁的最新开源动作，也意味着中国大模型厂商们的开源节奏并没有放缓。

就在国庆节前，Qwen接连推出多模态模型Qwen3-Next、Qwen3-VL以及图像编辑模型Qwen-Image-Edit-2509；DeepSeek也在短期内连续开源DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp两个重要版本，还被爆料年底会有更重磅模型进展……现在，假期刚结束，蚂蚁再次把这种开源势头续住了。

可以预见的是，大模型领域的精彩还将继续。而下一个惊喜，大概率还是来自中国。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

本文来自作者[姿妮]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/youxi/202510-50809.html

55 4

本文作者

姿妮签约作者

369 文章

4556088 评论

1 粉丝

我是视听号的签约作者[姿妮],本篇文章《更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA》主要讲述了:时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

科技世界

14 天战争余波：以色列 1.5 万人无家可归，伊朗 600 具遗体难安魂

与伊朗停火的第二天，以色列的生活开始恢复正常。以色列学生前往因与伊朗战事而关闭的学校，其中一些学校被用作防空洞。伊朗当局在近两周的战争期间曾严厉限制互联网服务，但周三已恢复。随着停火进入第二天，两国人民迈出了恢复正常生活的第一步。一些人仍然被这场短暂而激烈的战争的恐怖时刻所困扰。由于军方下令非必要工

奈窅恒
2025年06月26日
131
科技世界

78岁路都走不稳还开演唱会捞金，全网恶评如潮，她却扬言回馈粉丝

78岁路都走不稳还开演唱会捞金，全网恶评如潮，她却扬言回馈粉丝78岁。汪明荃。再一次成为话题中心。刚刚在上海举办了演唱会——争议扑面而来。网络上，“捞金”“割韭菜”的声音一浪高过一浪。有人说，她路都走不稳了，还出来唱歌。有人说，她年纪大了，不该再出来挣钱——各种质疑。热搜直接爆了。“78岁的老太太，

笪付刚
2025年07月02日
150
综合

终于发现“胡乐麻将赢牌诀窍（助赢神器通用版）

这软件真厉害!友乐广西麻将换牌软件(赢的技巧系统规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”友乐广西麻将换牌软件是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用

费莫东岭
2025年09月08日
67
常识科普

马贵荣，喊话姜昆弟子刘惠：你要再管我的事，我就找你师父告状去

相声圈并不总是舞台上那种热闹气氛私下里师门情分、辈分交错反而常让人头大。马贵荣70多岁了，北京人，相声写了半辈子，教了几代孩子。“她师父是回婉华，作品满台都是，但自己却成了直播里的高龄主播，性格直来直去。”这种角色让她在老人和圈内新鲜血液之间既特殊又尴尬。马贵荣的身份不止一个。她是传统师门“宝字

淦建利
2025年09月23日
57
生活经验

内蒙古自治区党委主要负责同志职务调整

日前，中共中央决定：王伟中同志任内蒙古自治区党委委员、常委、书记，孙绍骋同志不再担任内蒙古自治区党委书记、常委、委员职务。原标题：《内蒙古自治区党委主要负责同志职务调整》栏目主编：顾万全文字编辑：孔韬题图来源：上观题图来源：作者：新华社

访亦
2025年09月30日
65
知识分享

美贵客在北京入座，王毅2字定位中美关系，不是对手，更不是敌人

时隔六年，中国迎来一组罕见的美国贵客，此事释放出怎样的信号？中美两国前景到底如何？日前外交部长王毅在北京会见来华访问的美国国会众议员代表团史密斯一行，对中国而言，史密斯一行算得上是罕见的贵客，为什么呢？因为上一次美国联邦众议员代表团来华还是2019年的事情，当时的美国总统还是特朗普。既然如此，这次美

驰宁
2025年09月30日
57
知识分享

终于发现了“中至手机麻将软件只赢不输（专用辅牌神器免安装）

软件神器登场!微乐家乡麻将插件(神器购买好牌规律)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐家乡麻将插件是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

夏青
2025年10月09日
66
新闻资讯

10月份主要指标出炉，如何看待当前经济运行态势？

新华社北京11月14日电题：10月份主要指标出炉，如何看待当前经济运行态势？新华社记者王雨萧、黄垚全国规模以上工业增加值同比增长4.9%；全国服务业生产指数同比增长4.6%……10月份我国主要经济指标最新出炉。当前经济运行呈现哪些特点？全年经济发展预期目标能否顺利实现？在国新办11月14日举行的新

书萱
2025年11月15日
35
综合

没劲这就怂了？知道事情闹大了，高市早苗急忙找补：我就是假设

一句话先撂这：把别人家的事说成自己的事，结果自己先慌了。高市早苗在国会里扔出一句台海出事日本可能要出手，话音没落，北京连夜召见日本外交官，大阪总领馆连发两条警告，连她本党内的大佬都皱眉：别乱点火。她原话听着像预案，实质把红线往前推了半步。集体自卫权这五个字一出口，等于告诉外界日本可能动武，媒体

忆海
2025年11月18日
32
科技世界

分享辅助“微乐山东麻将自建房输赢规律（助赢神器通用版）

软件神器登场!微乐宁夏麻将助赢神器(专用神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐宁夏麻将助赢神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

珑玲少爷
2025年09月15日
75

发表回复

本站作者后才能评论

评论列表（4条）

姿妮 2025年10月10日

我是视听号的签约作者“姿妮”！

回复
姿妮 2025年10月10日

希望本篇文章《更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA》能对你有所帮助！

回复
姿妮 2025年10月10日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
姿妮 2025年10月10日

本文概览：时令发自凹非寺量子位 | 公众号 QbitAI又一个万亿参数级国产模型开源了！就在刚刚，蚂蚁正式发布百灵大模型的第一款旗舰模型——拥有万亿参数的通用语言模型Ling-1T。...

回复

更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

推理高效，前端有惊喜

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

推理高效，前端有惊喜