从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式

奈窅恒 • 2025年09月23日 01:59 • 游戏攻略 • 阅读 55

在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Foundation Models, EFM）从简单模仿提升至自我优化的高度。该技术不仅能使机器人在真实世界中自主学习，还能极大地提升其适应性和性能，标志着机器人技术进入一个全新阶段。

传统方法的局限性

早期的机器人学习主要依赖于单任务模仿学习，机器人重复人类演示的动作。然而，这种方法在面对新环境或改变任务时往往表现不佳，必须重新训练。尽管随着多模态感知与大规模数据集的发展，机器人技术得到了进步，但EFMs在自动化和灵活性方面仍面临挑战。当前，大多数机器人仍基于监督微调（SFT）进行训练，缺乏动态更新和强化学习的后训练机制。

传统机器人学习的一个核心障碍在于奖励函数设计的复杂性，现实任务的目标多变且难以量化，这导致人工设计的奖励函数往往费时且容易出现偏差。此外，在物理环境中评估任务完成度需要大量资源，限制了机器人学习的效率。

自我改进：新的突破

图1：技术团队提出的两阶段微调方法概述。

面对这些挑战，谷歌DeepMind的团队提出了一种新的自我改进机制，借鉴了大型语言模型（LLM）在后训练阶段的成功经验。该机制设立了两个阶段：首先是监督微调；其次是自我改进。

在第一阶段，机器人通过模仿人类的演示进行基础训练，不仅要输出相应的动作，同时还需要预测完成目标所需的步骤（Steps-to-Go）。这一额外的预测为后续优化提供了重要信号。

进入第二阶段，机器人则依靠自我改进进行在线强化学习，而不再依赖人工设计的奖励函数。通过对Steps-to-Go预测的变化，机器人能够自我评估每个动作的效果，使得自我不断优化成为可能。当机器人执行动作后，若预测的剩余步骤减少，便会获得正奖励；若增加，则获得负奖励。这种设计让机器人在无人干预的情况下，根据实时数据不断完善行为。

实验与结果

图2:Aloha单次插入任务的示例轨迹和表示模型预测（即d（o，g））下E[要走的步数]的图。关键时刻：1）模型认为事件即将成功完成，2）政策意外地放弃了挂钩，d（o，g）增加，3）政策从不适合插入的坏角度重新调整挂钩，因此d（o、g）保持高位，4）政策放弃挂钩，提供了正确重新调整挂钩的机会，从而减少了d（o，g），5）政策将挂钩向内推，d（o 、g）标志着政策即将成功，6）右手将插座从左手的握把中敲出，这增加了d（0、g）。

为了验证这一机制的有效性，研究团队在多个任务和平台上进行了系统评估，包括单臂推块任务和双臂插销任务。结果显示，该自我改进机制的表现卓越，尤其在样本效率方面，极少的在线强化学习数据便能带来显著性能提升。在LanguageTable任务中，仅额外采集不到2%的在线数据，成功率便从45%提升至75%。

图3：上图展示了模型在第一阶段从逐步预测目标中学习到的复杂细节水平。每个图都捕捉到了Aloha Single Insertion任务推出中的一个有趣时刻。每个都由5个连续的帧组成，在每个帧的下方，我们可视化了模型对成功前步骤的预测概率分布。x轴表示要执行的步骤数，y轴表示概率质量。在第一帧中，策略即将成功插入挂钩并完成任务，因此模型预测策略很可能很快就会成功。

研究团队还注意到，通过自我改进，机器人逐渐展现出更强的状态敏感性，能够在抓取过程中主动调整动作，提升了自身的适应能力。通过在Real2Sim的迁移实验中，机器人通过极少的额外数据，成功率提升至59% ，展现出跨域适应能力的巨大潜力。

可扩展性与未来前景

图4：点群导航域。来自模仿学习数据集的样本轨迹，以及BC（第一阶段）和自我改进（第二阶段）策略。

这种自我改进机制不仅对单台机器人有益，更具备可扩展性，允许多台机器人并行操作，各自收集数据，独立更新策略，为未来大规模应用提供了可能路径。研究团队在实验中表明，单个操作者能够高效监控多台机器人，形成一个自我驱动的学习闭环。

图5：第二阶段自我提升结果。

这一创新不仅为机器人研发提供了强有力的支持，也为机器人在复杂任务中提升适应能力开辟了新思路。在未来，这一方法有望被广泛应用于机器人辅助、自动化生产等多个领域，实现更高效的智能化发展。

谷歌DeepMind此次提出的自我改进机制无疑为机器人学习领域带来了新的视野，打破了传统学习方法的局限。通过将EFMs升华，使得机器人不再是单纯的模仿者，而是具备自我反思和持续优化能力的自主体。这一进展不仅为科学界提供了新的研究方向，更为未来全面智能化的真实世界铺平了道路。随着这项技术应用的深入，我们期待其在解决复杂问题、优化人机协作等方面发挥出更大的潜能。

本文来自作者[奈窅恒]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/youxi/202509-41584.html

55 4

本文作者

奈窅恒签约作者

286 文章

3475026 评论

1 粉丝

我是视听号的签约作者[奈窅恒],本篇文章《从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式》主要讲述了:在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

综合

【石家庄什么时候解封,石家庄什么时候解封最新消息】

石家庄西山森林公园封山时间〖壹〗、石家庄西山森林公园不需要门票，免费开放。但请注意，在2014年5月31日之前，该公园进行了封山育林，不对外开放。如需了解当前是否开放或有其他相关变动，建议提前联系公园管理部门或访问其官方网站获取最新信息。〖贰〗、年6月1日。通过查询石家庄本地宝了解到，石家庄西山森

千云
2025年06月17日
108
常识科普

“我们终结了一场战争”——特朗普将伊朗空袭比作原子弹轰炸日本

6月25日，美国总统特朗普在北约峰会期间强势宣称，美军对伊朗三大核设施发动的空袭已造成“彻底摧毁”，并将其与1945年美国对日本广岛、长崎的原子弹轰炸相提并论。这一说法随即在国际社会引发政治与历史伦理层面的广泛反弹。特朗普：空袭“终结战争”，如同“轰炸广岛”在荷兰海牙举行的北约年度峰会上，特朗普面对

寻凝
2025年06月26日
105
常识科普

【今日北京疫情最新消息,今日北京疫情地图最新消息】

北京疫情5月底能结束吗最新消息-今日热点预测时间：基于当前的疫情形势和防控措施，预计北京此轮本土疫情将在2022年5月底或6月初左右清零。然而，这一时间并非绝对，具体还需根据疫情的实际控制情况来确定。综上所述，虽然无法确定北京疫情是否能在5月底结束，但根据当前的形势和专家的解读，我们可以保持一定的

钭奕冉
2025年06月28日
103
作者专栏

微乐广西麻将技巧及攻略(揭秘小程序输赢技巧)/终于知道微乐广西麻将辅

微乐麻将有什么窍门吗(微乐麻将的五个玩法技巧介绍)玩微乐麻将有以下五个技巧：整体理牌：在拿到所有手牌后再进行整体理牌，以防止别人窥探你的手牌和思维方式。保持平和心态：无论手气好坏，都要保持冷静，不因一时的输赢而影响情绪和判断。不放弃希望：即使手牌看似不佳，也不要轻易放弃，洞察全局，寻找转机。在微乐

耀火
2025年08月03日
91
综合

玩家必备教程“手机麻将专用器新款（助赢神器通用版）

这软件超神啦!小程序麻将助赢神器(规律确实有挂)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序麻将助赢神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

雪枫
2025年08月30日
68
百科栏目

终于发现了“微乐陕西红中麻将助赢神器购买（助赢神器通用版）

软件神器超厉害!微信微乐麻将如何拿好牌(专用神器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信微乐麻将如何拿好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户

是雁丝吖
2025年09月14日
52
作者专栏

玩家必看攻略“普通麻将机怎样做才能赢（助赢神器通用版）

超神软件工具!手机跑得快辅助器通用版(通用挂软件多少钱)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机跑得快辅助器通用版是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

天曼
2025年09月27日
44
科技世界

北大研究发现：喜欢夜跑的人，健康指数是爱晨练的人的10倍不止？

太阳刚落山，北京奥体森林公园的跑道就亮起了星星点点的LED灯。有人戴着耳机刷圈，有人推着婴儿车快走，空气里混着青草味和一点点汽车尾气。北大运动医学研究所的陈医生站在终点线旁，拦住一位刚跑完五公里的白领，递上一张卡片：“恭喜，你的最大摄氧量比五年前提升了18%，相当于心脏年轻了8岁。”这不是推销，是追

靖景川
2025年10月30日
32
游戏攻略

县委书记、县委统战部部长，3天内接连被查

江西省纪委监委10月29日消息，泰和县委书记孙英剑涉嫌严重违纪违法，目前正接受江西省纪委监委纪律审查和监察调查。10月31日消息，泰和县委常委、统战部部长郭尚鑫涉嫌严重违纪违法，主动投案，目前正接受吉安市纪委监委纪律审查和监察调查。公开简历显示，孙英剑出生于1970年11月，曾任吉安市政府副秘书长，

惜柳
2025年11月03日
24
百科栏目

错换人生28年：姚策换医求生，仅3天被签字放弃治疗！养母再起诉

“错换人生28年案”再起波澜！当事人姚策去世4年后，2025年的6月26日，养母许敏起诉姚策生父母及妻子，以生命权、身体权、健康权受侵害为由，将亲生父母杜新枝、郭希宽及其妻子熊磊告上法庭，要求赔偿220万元！并追加了被告“北京清华长庚医院”！案件在北京昌平区人民法院一审开庭！01命运的无情捉弄199

雪云
2025年06月29日
107

发表回复

本站作者后才能评论

评论列表（4条）

奈窅恒 2025年09月23日

我是视听号的签约作者“奈窅恒”！

回复
奈窅恒 2025年09月23日

希望本篇文章《从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式》能对你有所帮助！

回复
奈窅恒 2025年09月23日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
奈窅恒 2025年09月23日

本文概览：在机器人领域，科研与应用的边界持续扩展。近期，谷歌DeepMind及其合作团队在这方面取得了显著进展，提出了一种革命性的方法，将‘具身基础模型’（Embodied Founda...

回复

从模仿到自我进化，谷歌发布下一代机器人基础模型训练新范式

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们