这是毛岸英赴朝参战前与刘思齐的一张珍贵合影,拍摄于1950年北京

...


这是毛岸英赴朝参战前与刘思齐的一张珍贵合影,拍摄于1950年北京

本文来自作者[涵凝]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/zlan/202512-68189.html

(2)

文章推荐

  • 【一乐麻将到底是否有挂(确实有挂吗),一乐麻将下载】

    超级搞笑双簧台词甲:(甲先上台说台词)各位同学们和老师在这六一到来之际,我给大家拜个早年,祝大家工作顺利、身体健康,合家欢乐,万事如意!乙:(乙从后台蹿出,手抱拳作揖,笑容满面的大声说)大家六一快乐!甲:(甲生气的斜眼看着乙说)唉。。这是谁家的孩子呀?跑这来瞎搅和!乙:噢。今天来给大家表演一

    2025年08月13日
    105
  • 【必备攻略微乐广西麻将神器a3(揭秘微信里插件下载),微信小程序微乐广西麻将有挂吗】

    友乐广西麻将怎么同步到微信〖壹〗、微乐麻将要跟微信同步,只要用微信授权登录就可以了。微乐麻将是一款不错的游戏,值得一玩。更改微信的头像,返回到微乐软件后,点击设置,点击同步数据。决胜麻将可以让玩家们更好的参与麻将娱乐,不断的打麻将,不需要房卡就能创建房间,可以更好的创建属于自己的房间。app中搜索

    2025年08月18日
    138
  • 玩家必看教程!“微乐山西麻将怎么提高胜率”(详细透视教程)-今日头条

    这软件超神啦!微乐卡五星开挂方法(怎么增加胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐卡五星开挂方法是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年09月05日
    88
  • 我来教大家“最新麻将解码器(专用辅牌神器免安装)

    这软件超神无敌!天天武汉麻将其实是有挂的(究竟是不是有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”天天武汉麻将其实是有挂的是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月05日
    83
  • 实测分享“开心泉州麻将外辅工具(助赢神器通用版)

    神器谁用谁爱!白金岛邵阳字牌其实是有透视软件挂(设置提高好牌几率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛邵阳字牌其实是有透视软件挂是一款可以让一直输的玩家,快速成为一个“必胜”的

    2025年09月10日
    80
  • 到手的肥肉飞了!巴西大豆疯狂溢价 中国反手砸130 万订单给阿根廷

    [赞]巴西真是一手好牌打得稀巴烂!当巴西大豆卖家还在仓库里盯着库存盘算“再涨一波能多赚多少”时,中国买家已经用两天130万吨的阿根廷大豆订单,给了他们最直接的回应。原本靠着中美贸易摩擦拿到的“七成进口份额”,本可以稳稳变成长期合作的金饭碗,却愣是被自己的贪心和误判,亲手推给了隔壁的阿根廷。这不是

    2025年10月25日
    58
  • 福建舰首秀:中国航母战斗力的“加速键”已按下!

    大家好,近日,中国海军“超级战舰”福建舰又有大动作!入列后首次海上实兵训练震撼登场,不仅展示了电磁弹射的“黑科技”,还带着豪华编队上演了一场“硬核”实战演练。这可不是简单的“过家家”,而是实打实的战斗力检验,标志着中国海军三航母时代正式迈入新篇章!今天咱们就来聊聊这场海上“大秀”到底有多燃?一、实兵

    2025年11月20日
    39
  • 冬季跑步“黄金期”!2个核心指标,让中老年跑者越跑越有劲

    50岁后,每慢1分钟,心脏老3岁。别急着关手机。这不是吓唬,是去年冬天北京一位56岁跑友的真实体检报告:静息心率从78涨到83,半年里他胸口闷了四次。医生只给一句话:再晚来一步,跑道变病床。冬天空气冷,血管缩,心脏得像水泵一样加倍用力。有人却偏要这时候开跑,说越冷越带劲。带劲没错,带错节

    2025年11月20日
    38
  • 1.5 亿美元豪赌光刻技术!美国押注初创公司,剑指 ASML 垄断地位

    哈喽,大家好,杆哥这篇评论,主要来分析1.5亿美元豪赌光刻技术!美国押注初创公司,剑指ASML垄断地位全球半导体供应链的博弈正悄然升级,特朗普政府甩出了关键一招:向硅谷初创公司xLight注资1.5亿美元。这笔资金来自拜登时代遗留的半导体研究基金,既是新政府在半导体领域的首战,也精准瞄

    2025年12月06日
    33
  • 第一观察|立德少年时 树人天地间

    未成年人思想道德建设工作座谈会12月15日在京召开。会上传达了习近平总书记的重要指示。未成年人思想道德建设,在习近平总书记心中分量很重。早在地方工作时,习近平同志就曾提出精神文明建设要“从娃娃抓起”,阐明加强和改进未成年人思想道德建设,不是权宜之计,而是一项长期的艰巨的战略任务。党的十八大以来

    2025年12月16日
    21

发表回复

本站作者后才能评论

评论列表(4条)

  • 涵凝
    涵凝 2025年12月26日

    我是视听号的签约作者“涵凝”!

  • 涵凝
    涵凝 2025年12月26日

    希望本篇文章《这是毛岸英赴朝参战前与刘思齐的一张珍贵合影,拍摄于1950年北京》能对你有所帮助!

  • 涵凝
    涵凝 2025年12月26日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 涵凝
    涵凝 2025年12月26日

    本文概览:...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBench,专门测试大语言模型在科学定律发现方面的真实能力 。测试结果显示 ,即使是目前性能最强的AI系统,在复杂的科学探索任务中仍表现出显著局限性,这为理解人工智能在科学发现中的角色提供了重要洞察。该研究不仅回答了AI领域学者何恺明提出的经典问题——"现代大模型能否在牛顿时代独立发现物理定律" ,更揭示了当前AI系统在科学推理方面的根本性挑战。

    传统的AI科学能力评估面临两个核心问题:数据泄漏和环境局限 。由于现有物理定律广泛存在于大模型的训练数据中,直接测试这些已知定律的发现能力无法真正反映模型的原创推理水平。同时,现有评估方法通常依赖静态数据表格进行等式归纳 ,这与真实科研中通过设计实验、获取数据 、迭代假设的动态过程存在根本差异。

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    NewtonBench通过创新的"形而上学变换"方法巧妙解决了这些问题 。研究团队以真实物理定律为基础,通过系统性的等式变换操作生成全新的衍生定律,确保这些变换后的定律不存在于任何训练语料中。这种方法覆盖了力学、电磁学、热力学等12个物理领域的324个发现任务 ,并根据变换复杂度将任务划分为简单 、中等、困难三个级别。

    更重要的是 ,NewtonBench为每个物理定律提供了沙盒化的实验环境 。AI系统可以通过函数调用机制自主设定实验参数,执行不同复杂度的实验任务,并从环境中获取动态反馈数据 。在简单实验环境中 ,输入输出参数直接对应目标定律的表达形式,接近理想的符号回归场景。而在复杂环境中,目标定律仅隐含于部分实验数据中 ,要求AI系统具备更强的抽象思维和推理能力。

    顶级AI系统的表现差异

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    研究团队对11个前沿大语言模型进行了系统评测,包括GPT-5、Gemini-2.5-Pro 、DeepSeek-R1和Qwen-3-235B等业界领先系统 。评估结果揭示了AI能力谱系中的显著分化现象。

    非推理模型在科学定律发现任务中表现普遍不佳。即使在最简单的实验设定下,这些模型的符号准确率也仅处于20%-50%的区间 ,远未达到实用水平 。这表明缺乏专门推理优化的AI系统难以胜任需要深度逻辑推演的科学发现任务。

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    相比之下,专门优化的推理模型展现出质的飞跃。GPT-5和DeepSeek-R1等系统凭借强大的复杂推理与数学运算能力,在简单场景下的符号准确率普遍突破80% ,证明了推理能力对于科学定律发现的关键作用 。

    然而,随着任务复杂度的提升,推理模型间的性能差距迅速扩大。在最具挑战性的"困难定律+复杂实验"场景下 ,性能最优的GPT-5和Gemini-2.5-Pro的定律发现准确率分别仅为29.9%和13.9% ,而其他模型的准确率均低于5%。这一结果充分说明,即使是当前最先进的AI系统,在面对需要深度科学洞察的复杂任务时仍存在显著局限 。

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    研究还发现了一个意外但重要的现象:代码执行工具的辅助效果呈现显著的分化特征。对于基础能力较弱的模型 ,代码工具能够带来显著的性能提升,帮助它们突破计算瓶颈。然而,对于已经具备强大推理能力的高性能模型 ,代码辅助反而产生了负面效应 。

    工具依赖的认知陷阱

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    为了深入理解这一看似矛盾的现象,研究团队进行了详细的归因分析 。通过控制代码调用权限数量的对比实验,研究者发现当高性能模型获得代码工具权限时 ,准确率出现了显著下滑。

    进一步的文本分析揭示了问题的根源。研究团队统计了模型决策过程中探索和利用相关关键词的出现频率,发现性能下滑的模型在使用代码后,探索类词汇的出现频率急剧下降 。这表明代码工具的引入导致了推理范式的根本性转变——从开放性探索转向对工具的过度依赖。

    AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平

    具体分析显示 ,在较弱的GPT-4.1模型中,45.4%的代码调用集中于数值计算环节,有效弥补了其计算能力的不足。而在强大的GPT-5-Mini中 ,69.4%的代码资源被投入函数拟合过程 ,导致模型倾向于快速获取局部最优解,而非进行全面的探索以寻找全局最优的物理定律 。

    这一发现具有深远的理论和实践意义。它表明当前AI系统在工具使用方面缺乏适应性策略,无法根据自身能力水平和任务需求动态调整工具依赖程度。对于科学发现这样需要创造性思维和全局优化的任务 ,过度的工具依赖可能成为认知发展的障碍 。

    NewtonBench的评测结果系统性地揭示了当前大模型科学发现能力的核心瓶颈。虽然前沿推理模型能够在预设场景中推演已知定律的变体,但其泛化能力在面对复杂物理定律和实验环境时呈现系统性衰减。这种局限不仅体现在绝对性能水平上,更重要的是暴露了AI系统在科学思维模式上的根本缺陷 。

    真正的科学发现需要结合直觉洞察、假设生成、实验设计和理论验证等多个认知层面。当前AI系统虽然在数学计算和模式识别方面表现出色 ,但在需要跨领域知识整合和创造性假设生成的任务中仍显不足。特别是在面对不确定性和开放性问题时,AI系统往往倾向于寻找快速但局部的解决方案,而非进行深入的全局探索 。

    这些发现为未来AI系统的发展指明了重要方向 。研究者指出 ,下一代具备科学发现能力的AI系统需要构建能够动态平衡探索与利用的认知架构。这不仅要求在算法层面进行创新,更需要在系统设计理念上实现根本转变,从优化局部性能转向培养全局洞察能力。

    同时 ,评估体系也需要进一步扩展,从当前的定律发现测试延伸到真实科研流程的全面模拟,包括未知定律发现 、动态实验设计和可证伪性验证等环节 。只有通过这样的综合性评估 ,才能真正培育出具备本征科学智能的人工智能系统。

    NewtonBench作为首个专门评估AI科学发现能力的综合性基准 ,为理解人工智能在科学研究中的角色和局限提供了重要工具。随着该基准的开源发布,预计将推动更多研究者投入到AI科学发现能力的研究中,最终促进人工智能在科学领域的深度应用 。

    本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/youxi/202510-52424.html

    (60)

    文章推荐

    • 【一乐麻将到底是否有挂(确实有挂吗),一乐麻将下载】

      超级搞笑双簧台词甲:(甲先上台说台词)各位同学们和老师在这六一到来之际,我给大家拜个早年,祝大家工作顺利、身体健康,合家欢乐,万事如意!乙:(乙从后台蹿出,手抱拳作揖,笑容满面的大声说)大家六一快乐!甲:(甲生气的斜眼看着乙说)唉。。这是谁家的孩子呀?跑这来瞎搅和!乙:噢。今天来给大家表演一

      2025年08月13日
      105
    • 【必备攻略微乐广西麻将神器a3(揭秘微信里插件下载),微信小程序微乐广西麻将有挂吗】

      友乐广西麻将怎么同步到微信〖壹〗、微乐麻将要跟微信同步,只要用微信授权登录就可以了。微乐麻将是一款不错的游戏,值得一玩。更改微信的头像,返回到微乐软件后,点击设置,点击同步数据。决胜麻将可以让玩家们更好的参与麻将娱乐,不断的打麻将,不需要房卡就能创建房间,可以更好的创建属于自己的房间。app中搜索

      2025年08月18日
      138
    • 玩家必看教程!“微乐山西麻将怎么提高胜率”(详细透视教程)-今日头条

      这软件超神啦!微乐卡五星开挂方法(怎么增加胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐卡五星开挂方法是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

      2025年09月05日
      88
    • 我来教大家“最新麻将解码器(专用辅牌神器免安装)

      这软件超神无敌!天天武汉麻将其实是有挂的(究竟是不是有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”天天武汉麻将其实是有挂的是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

      2025年09月05日
      83
    • 实测分享“开心泉州麻将外辅工具(助赢神器通用版)

      神器谁用谁爱!白金岛邵阳字牌其实是有透视软件挂(设置提高好牌几率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛邵阳字牌其实是有透视软件挂是一款可以让一直输的玩家,快速成为一个“必胜”的

      2025年09月10日
      80
    • 到手的肥肉飞了!巴西大豆疯狂溢价 中国反手砸130 万订单给阿根廷

      [赞]巴西真是一手好牌打得稀巴烂!当巴西大豆卖家还在仓库里盯着库存盘算“再涨一波能多赚多少”时,中国买家已经用两天130万吨的阿根廷大豆订单,给了他们最直接的回应。原本靠着中美贸易摩擦拿到的“七成进口份额”,本可以稳稳变成长期合作的金饭碗,却愣是被自己的贪心和误判,亲手推给了隔壁的阿根廷。这不是

      2025年10月25日
      58
    • 福建舰首秀:中国航母战斗力的“加速键”已按下!

      大家好,近日,中国海军“超级战舰”福建舰又有大动作!入列后首次海上实兵训练震撼登场,不仅展示了电磁弹射的“黑科技”,还带着豪华编队上演了一场“硬核”实战演练。这可不是简单的“过家家”,而是实打实的战斗力检验,标志着中国海军三航母时代正式迈入新篇章!今天咱们就来聊聊这场海上“大秀”到底有多燃?一、实兵

      2025年11月20日
      39
    • 冬季跑步“黄金期”!2个核心指标,让中老年跑者越跑越有劲

      50岁后,每慢1分钟,心脏老3岁。别急着关手机。这不是吓唬,是去年冬天北京一位56岁跑友的真实体检报告:静息心率从78涨到83,半年里他胸口闷了四次。医生只给一句话:再晚来一步,跑道变病床。冬天空气冷,血管缩,心脏得像水泵一样加倍用力。有人却偏要这时候开跑,说越冷越带劲。带劲没错,带错节

      2025年11月20日
      38
    • 1.5 亿美元豪赌光刻技术!美国押注初创公司,剑指 ASML 垄断地位

      哈喽,大家好,杆哥这篇评论,主要来分析1.5亿美元豪赌光刻技术!美国押注初创公司,剑指ASML垄断地位全球半导体供应链的博弈正悄然升级,特朗普政府甩出了关键一招:向硅谷初创公司xLight注资1.5亿美元。这笔资金来自拜登时代遗留的半导体研究基金,既是新政府在半导体领域的首战,也精准瞄

      2025年12月06日
      33
    • 第一观察|立德少年时 树人天地间

      未成年人思想道德建设工作座谈会12月15日在京召开。会上传达了习近平总书记的重要指示。未成年人思想道德建设,在习近平总书记心中分量很重。早在地方工作时,习近平同志就曾提出精神文明建设要“从娃娃抓起”,阐明加强和改进未成年人思想道德建设,不是权宜之计,而是一项长期的艰巨的战略任务。党的十八大以来

      2025年12月16日
      21
    • 河北廊坊疫情最新消息/河北廊坊疫情情况

      河北廊坊的疫情源头到底在哪里〖壹〗、河北廊坊的疫情源头近来仍在调查中,尚未有确切结论。以下是关于廊坊疫情的一些已知情况:疫情起始时间与地点:廊坊疫情始于3月9日,安次区首先报告本土病例,随后病例数迅速上升,大部分病例来自安次区。〖贰〗、疫情源是小郭庄村,距离石家庄正定世界机场仅10分钟车程。石家庄

      2025年07月09日
      116
    • 教程辅助“微乐小程序插件胜率设置(专用辅牌神器免安装)

      超酷软件神器!微乐湖南跑得快辅助器工具(怎么提升胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐湖南跑得快辅助器工具是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

      2025年09月22日
      70
    • 教程辅助“手机十三道有什么技巧(专用辅牌神器免安装)

      软件神器超厉害!开心十三张辅助器工具(免费专用神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”开心十三张辅助器工具是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

      2025年09月23日
      74
    • 跑5公里3个月后这些变化让你惊喜最后1个90%的人不知道

      你敢信吗?每周跑三次5公里,三个月后身体会发生天翻地覆的变化!北京协和医院最新研究发现,这种跑法能让端粒长度延长12%,相当于年轻7岁!解放军总医院数据更显示,坚持三个月后胰岛素敏感性提升58%,心血管疾病风险降低47%。运动医学专家直言:这才是"零损伤蜕变"的科学方案。五大惊喜变化38岁的王女士坚

      2025年09月23日
      63
    • 贪污上亿、假慈善?被实名举报的韩红,还是没有等来一声道歉

      她用23年建立公益生命线,为了公益决定一辈子不结婚不生孩子。可即便这样,韩红还是被实名举报!贪污上亿,侵吞善款,所有公益都是“作秀”....如今已经多年过去,韩红始终没有得到道歉!文|古人看图文更过瘾!关注我,精彩不断!下方留言区已开放,等你来畅所欲可即便这样,韩红还是逆流而上继续开展公益,冲在最前

      2025年11月05日
      38
    • 冬天遇见它使劲吃,生吃利水消肿,熟吃化痰止咳,错过可惜了

      干燥的冬天,一不小心就容易咳嗽感冒,这时候除了多添衣物,更要从饮食上好好调理,今天给大家推荐一样冬日的“养生宝贝”,它就是素有“小人参”美誉的——青萝卜,你别看它样子普通,价格却十分亲民,在北方城市,只卖5毛钱1斤,要是错过就可惜了。这种被称为“水果萝卜”的青萝卜,口感微辣甘甜、水多味美,更重要的是

      2025年12月04日
      31

    发表回复

    本站作者后才能评论

    评论列表(4条)

    • 剧子冉
      剧子冉 2025年10月16日

      我是视听号的签约作者“剧子冉”!

    • 剧子冉
      剧子冉 2025年10月16日

      希望本篇文章《AI能否重现牛顿的洞察?新基准测试揭示大模型发现定律的真实水平》能对你有所帮助!

    • 剧子冉
      剧子冉 2025年10月16日

      本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

    • 剧子冉
      剧子冉 2025年10月16日

      本文概览:当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律?这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

      联系我们

      邮件:视听号@sina.com

      工作时间:周一至周五,9:30-18:30,节假日休息

      关注我们