从模仿到自主，机器人还需跨越三重挑战｜专访NTU助理教授王子为

从始至终 • 2025年11月30日 19:00 • 知识分享 • 阅读 31

AI、机器人和未来。在新加坡南洋理工大学的一间实验室里，一只机械臂正在尝试完成一个看似简单的任务：抓取一个苹果。这个动作，对于三岁的孩童来说不过是本能，但对于当今最先进的机器人...

AI、机器人和未来。

在新加坡南洋理工大学的一间实验室里，一只机械臂正在尝试完成一个看似简单的任务：抓取一个苹果。这个动作，对于三岁的孩童来说不过是本能，但对于当今最先进的机器人而言，却是一道难以跨越的鸿沟。

在这个人工智能的“GPT 时刻”，我们见证了 AI 以快速迭代的方式掌握了语言、图像甚至代码。大型语言模型已经能在许多信息处理任务中展现出高效表现。然而，从知到行之间，横亘着一道我们尚未完全理解的鸿沟：一个能在虚拟世界通过美国执业医师资格考试的 AI，却无法在物理世界为我们可靠地端来一杯水。

这不仅是一个工程问题，更接近一个哲学命题：如果一个智能体无法与物理世界交互、感知、行动并承受后果，它是否真正理解了这个世界？在中国古典哲学中，“知行合一 ”被视为智慧的最高境界。而在今天的人工智能研究中，如何让机器实现从“知”到“行”的跨越，正成为这个领域最前沿、也最艰难的挑战。

王子为的研究经历，正是在这一问题背景下展开的。从清华大学的物理系，到 AI 研究，再到具身智能（Embodied AI）——他的每一次转向，都与技术发展趋势密切相关。

（来源：受访者提供）

两次“转向 ”：从物理定律到机器人铁律

2016 年，当 AlphaGo 与李世石的围棋对决吸引全球目光时，王子为还是清华大学物理系数理基础科学专业的一名学生。在当时的学术路径规划中，物理系的学生，未来大多走向理论物理、高能物理或是金融工程。但这场人机大战，彻底改变了这个 20 岁年轻人的人生方向。

“当时觉得这个东西非常神奇，有非常大的潜力。”回忆起那个转折点，王子为的语气依然带着当年的激动。这种激动促使他做出了一个大胆的决定——从物理学转向人工智能研究。“我们当年有很大一部分同学都转向了 AI 相关的工作，不管是计算机、电子还是自动化，多多少少都受了 AlphaGo 的影响。”

但真正让他从 AI 转向机器人研究的，是 2020 年另一项发表在Nature的里程碑式工作——“Robot Chemist ” 。来自英国利物浦大学的 Andrew I. Cooper 教授课题组开发了机器人化学家，其可以在实验室“走来走去”并如同人类化学家一样操作实验仪器，完成各种各样的实验任务。

这项研究让他意识到：相比纯粹的算法研究，AI 与物理世界的结合可能是一个更具空间的方向。

同年，他开始了 AI 与机器人结合的研究，从纯粹的 AI 走向具身 AI 。“我记得非常的清楚，”他回忆起2020年第一次调试机器人，“看到我们自己设计的机械臂，能够完成打包工作，把一个物体像人一样打包进盒子里面……那一份成就感，哪怕过去这么多年了，也是记忆犹新。 ”

加速的时代，CMU 的“快”与“慢”

在 AI 这个以月为迭代周期的领域，快是公认的信条。算法在加速，模型在膨胀，论文在增长。然而，王子为在博士毕业后前往卡内基梅隆大学（CMU）进行博士后研究时，学到的最重要的一课，却是“慢下来 ”。

“让研究慢下来，其实不容易。”王子为发现，当AI 与机器人结合，研究的范式就彻底变了。在纯AI 领域，一个想法的验证周期可能很短：设计一个新模型，在已有的数据集上跑一下，几个小时或几天后，就能迅速验证想法是否有效。但在机器人领域，这个周期会被无限拉长。

“要把问题想清楚是需要时间的。”王子为举例，在机器人上验证一个新算法，首先要采集数据。这个过程是物理的、实时的、昂贵的。“机器人采数据是需要时间的，是需要成本的。”采集完数据，还要进行漫长的训练和调试。

更重要的是，物理世界远比数据集要狡猾。“比如，我们设计的框架对不同的网络结构、不同的硬件，是不是都有效？增加数据之后，在特定的问题上，它是否会产生像物理学里面那种相变？ ”就像 GPT 模型在数据量跨越某个阈值后突然涌现出能力一样。在机器人领域，这个涌现点在哪里？没有人知道。

“这都是需要时间的。”他反复强调。

他在 CMU 参与的一个项目，是研究如何通过人类的语言或草图，来生成乐高积木的拼接方案，并指挥机器人完成组装。这听起来像个玩具问题，但其背后的技术复杂度是惊人的。这套系统首先需要理解人类模糊的指令（造一个带两个窗户的红房子），然后生成一个三维的、符合物理拼接逻辑的模型；接着需要规划机器人的每一步操作（抓取、旋转、放置），最后才到让机器人执行高精度的动作的环节，并还要保证全过程的安全。

“这个工作从 2023 年就开始了，一直到今年（2025年）才有一个里程碑式的结果，但最后这篇论文也是拿到了 ICCV 的 Best Paper 。”

一个看似简单的搭乐高任务，耗费了团队数年的时间。这种“慢 ”，在如今的加速社会里似乎是不可想象的。但王子为认为，正是这种“慢”，让他们能够沉淀下来，去发现一些平常容易忽略的，但是真正重要的一些问题。

与此同时，CMU 的合作氛围为研究带来了一种“快”。不同实验室在硬件、感知、移动平台等方面能力互补，使项目推进更为高效。这种“快 ”与“慢”的结合，也影响了他后来在 NTU 开展研究的方式。

苹果掉在地上：具身智能的“阿喀琉斯之踵”

“我们实验室的长期目标，是为机器人赋予能够理解世界、并且能够自主决策的大脑。 ”

在 NTU 的实验室里，王子为正试图回答这个领域最核心的难题：为什么今天的机器人，本质上仍然是模仿者，而不是决策者？他用一个极其生动的例子，点出了具身智能的“阿喀琉斯之踵”——泛化性（Generalization）。

“以抓苹果为例。苹果放在桌子上，很多模型表现都能把它抓起来。这是我们通常在演示视频里看到的。但是，如果某一次抓的时候没抓稳，苹果掉在地上了，那么很多的机器人的模型现在就会直接 fail 掉。因为在训练的过程中，它可能压根就没有见过这种类似的数据。”

这就是当前主流的模仿学习（Imitation Learning）范式的弱点。模型只是在复现它在训练数据中见过的轨迹，它并没有真正理解这个任务。“人哪怕看到苹果掉在地上，我理解到苹果、桌子、地板之间的规律，以及这个世界的物理运行规律，包括摩擦力、包括重力……它都是能够解决的。 ”而机器不能。这就是“分布外”（Out-of-Distribution, OOD）问题。当机器人遇到一个它训练数据分布之外的、全新的情况时，它就束手无策了。

背后的挑战可以概括为三类，这也是整个行业共同面临的“三座大山”：

其一，数据昂贵。机器人数据必须在真实物理环境中采集，每条数据往往要数十秒甚至更久，难以像语言模型那样依靠大规模互联网数据训练；其二，物理精度要求高。几毫米的误差都可能导致任务失败，小偏差的累积会迅速放大；其三，环境物理规律多变。摩擦、质地、光照等因素的微调都会影响动作效果，模型需要实时建模这些隐性变量。

走向“自主”：世界模型、推理链与强化学习

为了应对上述难题，王子为团队正在探索三类方法。

第一条路径，是尝试用世界模型（World Model）打破数据诅咒。既然物理世界的数据采集那么昂贵，我们能不能让机器人在“脑海中 ”采集数据？这就是世界模型的逻辑。“它根据当前的观察和即将要采取的一个动作，就会提前预判后续会产生什么样的后果。”王子为解释道，“也就是说，我不需要真的去做这个事，我只需要在我脑海里面想一下，我就知道会产生什么样一个后果。”

通过世界模型，机器人可以在“想象 ”中源源不断地产生训练数据，极大地降低数据成本。当然，前提是这个“想象”要足够逼真。这是王子为团队的重点方向之一，即如何生成真正跟真实的数据差距比较小的高质量数据。

第二条路径，是用推理链解决长程任务。当前的机器人模型（如 VLA，Vision-Language-Action 模型）普遍“短视”。它们能做好抓取苹果这样的一步动作，但无法完成做一份早餐这样的长程任务。“做早餐，它可能需要 20 步，甚至 30 步。打开冰箱、拿出食材、洗、切、煮、端到桌子上。 ”王子为说，“这是一个需要推理能力的长程任务。”而受大语言模型思维链（Chain-of-Thought）的启发，王子为团队的思路是，把长任务拆解成一步一步的短任务，让机器人每次只去解决一小步。

但核心问题是：怎么“拆”才是最优的？人类认为的 20 步，不一定是模型认为最高效的 20 步。他近期的工作（如 ThinkBot 和 VLA-Reasoner）就是为了解决这个拆解问题。他们尝试用蒙特卡洛搜索树和强化学习的方法，去搜索一个最优的拆解方案。“机器人需要推理物体与物体之间的关系（空间上），也需要推理动作与动作之间的关系（时间上）。 ”

第三条路径，用强化学习跳出模仿的范式。这是最激进，也可能最具革命性的一步。它试图彻底解决那个“苹果掉在地上”的 OOD 问题。模仿学习的覆盖面总是有限的，“人是没有办法去穷尽所有的分布外的情况的。“那我们能不能，”王子为设想，“不再依赖于人类的数据采集，而是说通过自己主动的去尝试一些东西？ ”

这就是强化学习的回归。让机器人自己去探索，甚至主动犯错。“比如说，它自己主动觉得，这个苹果如果将来掉到地上之后，我可能不确定怎么去拿，那么他就会自己主动去尝试，把这个苹果弄到地上，然后去把它抓起来，在这个过程中进行学习。”这是一种根本的范式转变：从“向人类学习”（Learning from Human）转向“自主学习”（Self-learning）。

这标志着机器人从一个被动执行的工具，开始向一个主动探索的智能体（Agent）进化。王子为提到，近期已有很多论文显示，通过这种方式，机器人在某些任务上能达到接近 100% 的成功率——这是纯模仿学习无法企及的高度。

从“知 ”到“行”：热情是最后一公里

迄今，那只机械臂仍在不知疲倦地重复着训练动作，身后的科研工作者们还在夜以继日地调试。它还不够完美，偶尔会失误，会在意想不到的情况下“手足无措”。但正是这些失败，构成了通向理解的必经之路。这也让我们在采访的最后，不禁问出了那个问题：在这样一个瞬息万变、充满不确定性的领域，究竟什么样的人才能走到最后？

“我认为是要有热情和快速学习的能力。“因为一个顶级的研究者，他肯定是这个世界上对于这个细分小领域最了解的人，至少是之一。所以他每往前迈一小步，其实都是要面临无限的不确定性和挑战。这种情况下，研究在很多时候就是一份煎熬。只有真正对这个领域充满热情的人，期待能够看到自己把这个东西做出来、并且觉得有成就感的人，才能够克服这份煎熬。 ”

在快速演化的具身智能领域，研究者需要面对复杂系统带来的不确定性。算法在一个场景中表现良好，换一个位置或环境后可能完全失效；不同批次的数据可能带来截然不同的训练结果；许多问题缺乏现成答案，需要从头推导和验证。

为了保持学习效率，王子为在实验室推动“论文快讲会”，让团队成员每周快速总结新的研究进展，并相互讨论。他认为，在一个知识迭代迅速的领域，团队式学习能更好地保持对前沿的敏感。

在应用层面，他的团队也在与制造行业合作，包括汽车、飞机维保、物流等场景，希望在真实工业环境中采集到更高质量的数据，为未来的机器人模型打下基础。

具身智能仍是一个不断发展的领域，从“知道”到“做到 ”之间仍有距离。研究者在其中要面对工程复杂度、物理系统的不确定性，以及长期投入的要求。通往可用的通用机器人系统，仍需要时间、耐心和持续不断的跨学科合作。

本文来自作者[从始至终]投稿，不代表视听号立场，如若转载，请注明出处：https://cn.stddy.com/zsfx/202511-61022.html

31 4

本文作者

从始至终签约作者

343 文章

4500224 评论

1 粉丝

我是视听号的签约作者[从始至终],本篇文章《从模仿到自主，机器人还需跨越三重挑战｜专访NTU助理教授王子为》主要讲述了:AI、机器人和未来。在新加坡南洋理工大学的一间实验室里，一只机械臂正在尝试完成一个看似简单的任务：抓取一个苹果。这个动作，对于三岁的孩童来说不过是本能，但对于当今最先进的机器人...

知识分享

赖清德称“台湾不属于中国”，不到48小时，大陆再次对他做出定性

赖清德最近开始了一个行动。他要搞“大罢免”，还要去各地做10场演讲。国民党主席朱立伦说，赖清德这么做，就是为了他一个人的权力，为了一个党的利益。朱立伦还指责他想消灭掉“在野党”，罢免所有“在野党”的民意代表。这在以前是没有过的，是一个很坏的例子！赖清德的演讲叫“团结十讲”。第一场演讲是6月22日开始

蔷薇少女
2025年06月26日
112
常识科普

沈阳新增病例行动轨迹公布.沈阳新增患者轨迹？

沈阳第二次封城是哪个区?〖壹〗、沈阳并未进行第二次全面封城，而是对特定区域实施了严格的管控措施。具体来说：于洪区北陵街道宏达社区：这是新增确诊病例所居住的小区，已经实行了封闭管理。其他涉及区域：虽然患者曾在大东区和铁西区等地活动，但官方并未宣布这些区域进行全面封城，而是根据疫情具体情况采取了相应的

竹紫晨
2025年07月26日
106
新闻资讯

泉州手机麻将其实是有挂的(到底是否有挂).泉州麻将开挂视频教程？

开心泉州麻将有客服吗有的。开心泉州麻将，可以通过添加客服微信，联系客服。随机选牌，提高好牌机率，提前查看公共底牌。我玩的福建泉州麻将?福建泉州麻将要注意以下要点：臭庄规则：当牌墙剩下16张牌时，如果无人和牌，则庄家成为臭庄。臭庄的庄家将继续担任下一轮的庄家，并且底分需要翻倍。如果再次臭庄，底分将

访亦
2025年08月07日
111
科技世界

终于发现了“雀神小程序怎么调胜率（助赢神器通用版）

速来试试神器!手机打牌高科技设备(开挂辅助器脚本)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机打牌高科技设备是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

如柔
2025年08月30日
79
科技世界

我来教大家“微乐广东麻将免费专用神器（助赢神器通用版）

这神器绝了呀!家乡大贰小程序能不能开挂(怎么发好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”家乡大贰小程序能不能开挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

映雁
2025年09月12日
77
知识分享

分享辅助“微乐甘肃麻将怎么可以胡牌几率高（助赢神器通用版）

超神软件登场!来趣广西麻将十三张确实有辅助挂插件(怎么设置才能赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”来趣广西麻将十三张确实有辅助挂插件是一款可以让一直输的玩家，快速成为一个“必胜”

栗子
2025年09月29日
63
科技世界

每天刷几万步是科学锻炼吗？积水潭医院专家：强行追求步数可能导致过度运动

极目新闻记者曹雪娇现在不少人喜欢通过走路刷步数来运动。刷步数运动适合哪些人？又有哪些注意事项？10月27日，在国家卫生健康委举行的新闻发布会上，首都医科大学附属北京积水潭医院主任医师李庭介绍，走路确实是一个不错的锻炼方式，但强行追求步数，可能会增加损伤风险。会上，首都医科大学附属北京积水潭医院主任

admin
2025年10月28日
54
知识分享

古人建房子有多讲究？清代古建的“尺寸密码”，藏着千年智慧

“看古建只会拍照打卡？2023年故宫养心殿工地曝出消息：工人还在用清朝的3.2寸斗口尺，误差不到一毫米，瞬间打脸那些说‘古代靠蒙’的键盘侠。”数字不会撒谎。清华团队把87处清建筑扫进电脑，91%的面阔进深比锁死1:1.6，黄金分割被老祖宗玩成了流水线。更狠的是柱体收分1/100，模拟一跑

春翌岍
2025年11月29日
27
科技世界

【五一不放假,五一不放假犯法吗】

如果五一公司不放假,违反国家规定吗?如果公司在五一期间不放假，但依法支付员工三倍工资，这是符合国家法规的。用人单位在法定节假日不安排员工休假且不支付相应报酬的情况下，员工可以向工会和当地劳动行政部门进行投诉。我国法律规定，在法定节假日，用人单位必须依法安排员工休假。五一作为法定节日，公司必须安

涵凝
2025年06月14日
145
综合

会友山西麻将究竟有没有挂(确实真有挂)(友约山西麻将安卓版)

山西立四麻将有什么特殊之处?〖壹〗、山西立四麻将的特殊之处在于其特殊的起牌规则和听口规则：特殊的起牌规则：游戏开始时，玩家首先起的四张麻将牌会被置于最前方，并且在游戏过程中，除非进行碰牌或达到听口状态，否则这四张牌不能移动。这四张牌为玩家提供了可能的听口方向，也限制了玩家的出牌选取。〖贰〗、山西的

安卉
2025年08月15日
141

发表回复

本站作者后才能评论

评论列表（4条）

从始至终 2025年11月30日

我是视听号的签约作者“从始至终”！

回复
从始至终 2025年11月30日

希望本篇文章《从模仿到自主，机器人还需跨越三重挑战｜专访NTU助理教授王子为》能对你有所帮助！

回复
从始至终 2025年11月30日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
从始至终 2025年11月30日

本文概览：AI、机器人和未来。在新加坡南洋理工大学的一间实验室里，一只机械臂正在尝试完成一个看似简单的任务：抓取一个苹果。这个动作，对于三岁的孩童来说不过是本能，但对于当今最先进的机器人...

回复

从模仿到自主，机器人还需跨越三重挑战｜专访NTU助理教授王子为

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们