从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为

AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能,但对于当今最先进的机器人...

AI、机器人和未来。


在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果 。这个动作,对于三岁的孩童来说不过是本能 ,但对于当今最先进的机器人而言,却是一道难以跨越的鸿沟。


在这个人工智能的“GPT 时刻”,我们见证了 AI 以快速迭代的方式掌握了语言 、图像甚至代码。大型语言模型已经能在许多信息处理任务中展现出高效表现 。然而 ,从知到行之间,横亘着一道我们尚未完全理解的鸿沟:一个能在虚拟世界通过美国执业医师资格考试的 AI,却无法在物理世界为我们可靠地端来一杯水。


这不仅是一个工程问题 ,更接近一个哲学命题:如果一个智能体无法与物理世界交互、感知、行动并承受后果,它是否真正理解了这个世界?在中国古典哲学中,“知行合一 ”被视为智慧的最高境界。而在今天的人工智能研究中 ,如何让机器实现从“知”到“行”的跨越,正成为这个领域最前沿 、也最艰难的挑战 。


王子为的研究经历,正是在这一问题背景下展开的。从清华大学的物理系 ,到 AI 研究 ,再到具身智能(Embodied AI)——他的每一次转向,都与技术发展趋势密切相关。



从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为

(来源:受访者提供)




两次“转向 ”:从物理定律到机器人铁律

2016 年 ,当 AlphaGo 与李世石的围棋对决吸引全球目光时,王子为还是清华大学物理系数理基础科学专业的一名学生 。在当时的学术路径规划中,物理系的学生 ,未来大多走向理论物理、高能物理或是金融工程。但这场人机大战,彻底改变了这个 20 岁年轻人的人生方向。


“当时觉得这个东西非常神奇,有非常大的潜力 。”回忆起那个转折点 ,王子为的语气依然带着当年的激动 。这种激动促使他做出了一个大胆的决定——从物理学转向人工智能研究。“我们当年有很大一部分同学都转向了 AI 相关的工作,不管是计算机、电子还是自动化,多多少少都受了 AlphaGo 的影响。”


但真正让他从 AI 转向机器人研究的 ,是 2020 年另一项发表在Nature的里程碑式工作——“Robot Chemist ” 。来自英国利物浦大学的 Andrew I. Cooper 教授课题组开发了机器人化学家,其可以在实验室“走来走去”并如同人类化学家一样操作实验仪器,完成各种各样的实验任务。


这项研究让他意识到:相比纯粹的算法研究 ,AI 与物理世界的结合可能是一个更具空间的方向。


同年 ,他开始了 AI 与机器人结合的研究,从纯粹的 AI 走向具身 AI 。“我记得非常的清楚,”他回忆起2020年第一次调试机器人 ,“看到我们自己设计的机械臂,能够完成打包工作,把一个物体像人一样打包进盒子里面……那一份成就感 ,哪怕过去这么多年了,也是记忆犹新。 ”




加速的时代,CMU 的“快”与“慢”

在 AI 这个以月为迭代周期的领域 ,快是公认的信条。算法在加速,模型在膨胀,论文在增长 。然而 ,王子为在博士毕业后前往卡内基梅隆大学(CMU)进行博士后研究时,学到的最重要的一课,却是“慢下来 ”。


“让研究慢下来 ,其实不容易。 ”王子为发现 ,当AI 与机器人结合,研究的范式就彻底变了 。在纯AI 领域,一个想法的验证周期可能很短:设计一个新模型 ,在已有的数据集上跑一下,几个小时或几天后,就能迅速验证想法是否有效。但在机器人领域 ,这个周期会被无限拉长。


“要把问题想清楚是需要时间的 。”王子为举例,在机器人上验证一个新算法,首先要采集数据 。这个过程是物理的 、实时的、昂贵的。“机器人采数据是需要时间的 ,是需要成本的。”采集完数据,还要进行漫长的训练和调试 。


更重要的是,物理世界远比数据集要狡猾。“比如 ,我们设计的框架对不同的网络结构、不同的硬件,是不是都有效?增加数据之后,在特定的问题上 ,它是否会产生像物理学里面那种相变? ”就像 GPT 模型在数据量跨越某个阈值后突然涌现出能力一样。在机器人领域 ,这个涌现点在哪里?没有人知道 。


“这都是需要时间的。”他反复强调。


他在 CMU 参与的一个项目,是研究如何通过人类的语言或草图,来生成乐高积木的拼接方案 ,并指挥机器人完成组装 。这听起来像个玩具问题,但其背后的技术复杂度是惊人的。这套系统首先需要理解人类模糊的指令(造一个带两个窗户的红房子),然后生成一个三维的 、符合物理拼接逻辑的模型;接着需要规划机器人的每一步操作(抓取、旋转、放置) ,最后才到让机器人执行高精度的动作的环节,并还要保证全过程的安全。


“这个工作从 2023 年就开始了,一直到今年(2025年)才有一个里程碑式的结果 ,但最后这篇论文也是拿到了 ICCV 的 Best Paper 。”


一个看似简单的搭乐高任务,耗费了团队数年的时间。这种“慢 ”,在如今的加速社会里似乎是不可想象的。但王子为认为 ,正是这种“慢”,让他们能够沉淀下来,去发现一些平常容易忽略的 ,但是真正重要的一些问题 。


与此同时 ,CMU 的合作氛围为研究带来了一种“快” 。不同实验室在硬件 、感知 、移动平台等方面能力互补,使项目推进更为高效。这种“快 ”与“慢”的结合,也影响了他后来在 NTU 开展研究的方式。




苹果掉在地上:具身智能的“阿喀琉斯之踵”

“我们实验室的长期目标 ,是为机器人赋予能够理解世界、并且能够自主决策的大脑 。 ”


在 NTU 的实验室里,王子为正试图回答这个领域最核心的难题:为什么今天的机器人,本质上仍然是模仿者 ,而不是决策者?他用一个极其生动的例子,点出了具身智能的“阿喀琉斯之踵”——泛化性(Generalization)。


“以抓苹果为例。苹果放在桌子上,很多模型表现都能把它抓起来 。这是我们通常在演示视频里看到的。但是 ,如果某一次抓的时候没抓稳,苹果掉在地上了,那么很多的机器人的模型现在就会直接 fail 掉。因为在训练的过程中 ,它可能压根就没有见过这种类似的数据 。”


这就是当前主流的模仿学习(Imitation Learning)范式的弱点。模型只是在复现它在训练数据中见过的轨迹,它并没有真正理解这个任务。“人哪怕看到苹果掉在地上,我理解到苹果、桌子 、地板之间的规律 ,以及这个世界的物理运行规律 ,包括摩擦力、包括重力……它都是能够解决的 。 ”而机器不能。这就是“分布外 ”(Out-of-Distribution, OOD)问题。当机器人遇到一个它训练数据分布之外的、全新的情况时,它就束手无策了 。


背后的挑战可以概括为三类,这也是整个行业共同面临的“三座大山”:


其一 ,数据昂贵 。机器人数据必须在真实物理环境中采集,每条数据往往要数十秒甚至更久,难以像语言模型那样依靠大规模互联网数据训练;其二 ,物理精度要求高。几毫米的误差都可能导致任务失败,小偏差的累积会迅速放大;其三,环境物理规律多变。摩擦 、质地、光照等因素的微调都会影响动作效果 ,模型需要实时建模这些隐性变量 。




走向“自主”:世界模型、推理链与强化学习

为了应对上述难题,王子为团队正在探索三类方法。


第一条路径,是尝试用世界模型(World Model)打破数据诅咒。既然物理世界的数据采集那么昂贵 ,我们能不能让机器人在“脑海中 ”采集数据?这就是世界模型的逻辑 。“它根据当前的观察和即将要采取的一个动作,就会提前预判后续会产生什么样的后果。”王子为解释道,“也就是说 ,我不需要真的去做这个事 ,我只需要在我脑海里面想一下,我就知道会产生什么样一个后果。”


通过世界模型,机器人可以在“想象 ”中源源不断地产生训练数据 ,极大地降低数据成本 。当然,前提是这个“想象”要足够逼真。这是王子为团队的重点方向之一,即如何生成真正跟真实的数据差距比较小的高质量数据。


第二条路径 ,是用推理链解决长程任务 。当前的机器人模型(如 VLA,Vision-Language-Action 模型)普遍“短视”。它们能做好抓取苹果这样的一步动作,但无法完成做一份早餐这样的长程任务。“做早餐 ,它可能需要 20 步,甚至 30 步 。打开冰箱 、拿出食材、洗、切 、煮、端到桌子上 。 ”王子为说,“这是一个需要推理能力的长程任务。”而受大语言模型思维链(Chain-of-Thought)的启发 ,王子为团队的思路是,把长任务拆解成一步一步的短任务,让机器人每次只去解决一小步。


但核心问题是:怎么“拆”才是最优的?人类认为的 20 步 ,不一定是模型认为最高效的 20 步 。他近期的工作(如 ThinkBot 和 VLA-Reasoner)就是为了解决这个拆解问题。他们尝试用蒙特卡洛搜索树和强化学习的方法 ,去搜索一个最优的拆解方案。“机器人需要推理物体与物体之间的关系(空间上),也需要推理动作与动作之间的关系(时间上) 。 ”


第三条路径,用强化学习跳出模仿的范式。这是最激进 ,也可能最具革命性的一步。它试图彻底解决那个“苹果掉在地上”的 OOD 问题 。模仿学习的覆盖面总是有限的,“人是没有办法去穷尽所有的分布外的情况的。“那我们能不能,”王子为设想 ,“不再依赖于人类的数据采集,而是说通过自己主动的去尝试一些东西? ”


这就是强化学习的回归。让机器人自己去探索,甚至主动犯错 。“比如说 ,它自己主动觉得,这个苹果如果将来掉到地上之后,我可能不确定怎么去拿 ,那么他就会自己主动去尝试,把这个苹果弄到地上,然后去把它抓起来 ,在这个过程中进行学习。 ”这是一种根本的范式转变:从“向人类学习”(Learning from Human)转向“自主学习”(Self-learning)。


这标志着机器人从一个被动执行的工具 ,开始向一个主动探索的智能体(Agent)进化 。王子为提到,近期已有很多论文显示,通过这种方式 ,机器人在某些任务上能达到接近 100% 的成功率——这是纯模仿学习无法企及的高度 。




从“知 ”到“行”:热情是最后一公里

迄今,那只机械臂仍在不知疲倦地重复着训练动作,身后的科研工作者们还在夜以继日地调试。它还不够完美 ,偶尔会失误,会在意想不到的情况下“手足无措”。但正是这些失败,构成了通向理解的必经之路 。这也让我们在采访的最后 ,不禁问出了那个问题:在这样一个瞬息万变、充满不确定性的领域,究竟什么样的人才能走到最后?


“我认为是要有热情和快速学习的能力。“因为一个顶级的研究者,他肯定是这个世界上对于这个细分小领域最了解的人 ,至少是之一。所以他每往前迈一小步,其实都是要面临无限的不确定性和挑战 。这种情况下,研究在很多时候就是一份煎熬。只有真正对这个领域充满热情的人 ,期待能够看到自己把这个东西做出来 、并且觉得有成就感的人 ,才能够克服这份煎熬。 ”


在快速演化的具身智能领域,研究者需要面对复杂系统带来的不确定性 。算法在一个场景中表现良好,换一个位置或环境后可能完全失效;不同批次的数据可能带来截然不同的训练结果;许多问题缺乏现成答案 ,需要从头推导和验证。


为了保持学习效率,王子为在实验室推动“论文快讲会”,让团队成员每周快速总结新的研究进展 ,并相互讨论。他认为,在一个知识迭代迅速的领域,团队式学习能更好地保持对前沿的敏感 。


在应用层面 ,他的团队也在与制造行业合作,包括汽车 、飞机维保、物流等场景,希望在真实工业环境中采集到更高质量的数据 ,为未来的机器人模型打下基础。


具身智能仍是一个不断发展的领域,从“知道”到“做到 ”之间仍有距离。研究者在其中要面对工程复杂度、物理系统的不确定性,以及长期投入的要求 。通往可用的通用机器人系统 ,仍需要时间 、耐心和持续不断的跨学科合作 。

本文来自作者[从始至终]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/zsfx/202511-61022.html

(31)

文章推荐

  • 赖清德称“台湾不属于中国”,不到48小时,大陆再次对他做出定性

    赖清德最近开始了一个行动。他要搞“大罢免”,还要去各地做10场演讲。国民党主席朱立伦说,赖清德这么做,就是为了他一个人的权力,为了一个党的利益。朱立伦还指责他想消灭掉“在野党”,罢免所有“在野党”的民意代表。这在以前是没有过的,是一个很坏的例子!赖清德的演讲叫“团结十讲”。第一场演讲是6月22日开始

    2025年06月26日
    112
  • 沈阳新增病例行动轨迹公布.沈阳新增患者轨迹?

    沈阳第二次封城是哪个区?〖壹〗、沈阳并未进行第二次全面封城,而是对特定区域实施了严格的管控措施。具体来说:于洪区北陵街道宏达社区:这是新增确诊病例所居住的小区,已经实行了封闭管理。其他涉及区域:虽然患者曾在大东区和铁西区等地活动,但官方并未宣布这些区域进行全面封城,而是根据疫情具体情况采取了相应的

    2025年07月26日
    106
  • 泉州手机麻将其实是有挂的(到底是否有挂).泉州麻将开挂视频教程?

    开心泉州麻将有客服吗有的。开心泉州麻将,可以通过添加客服微信,联系客服。随机选牌,提高好牌机率,提前查看公共底牌。我玩的福建泉州麻将?福建泉州麻将要注意以下要点:臭庄规则:当牌墙剩下16张牌时,如果无人和牌,则庄家成为臭庄。臭庄的庄家将继续担任下一轮的庄家,并且底分需要翻倍。如果再次臭庄,底分将

    2025年08月07日
    111
  • 终于发现了“雀神小程序怎么调胜率(助赢神器通用版)

    速来试试神器!手机打牌高科技设备(开挂辅助器脚本)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机打牌高科技设备是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年08月30日
    79
  • 我来教大家“微乐广东麻将免费专用神器(助赢神器通用版)

    这神器绝了呀!家乡大贰小程序能不能开挂(怎么发好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”家乡大贰小程序能不能开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月12日
    77
  • 分享辅助“微乐甘肃麻将怎么可以胡牌几率高(助赢神器通用版)

    超神软件登场!来趣广西麻将十三张确实有辅助挂插件(怎么设置才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”来趣广西麻将十三张确实有辅助挂插件是一款可以让一直输的玩家,快速成为一个“必胜”

    2025年09月29日
    63
  • 每天刷几万步是科学锻炼吗?积水潭医院专家:强行追求步数可能导致过度运动

    极目新闻记者曹雪娇现在不少人喜欢通过走路刷步数来运动。刷步数运动适合哪些人?又有哪些注意事项?10月27日,在国家卫生健康委举行的新闻发布会上,首都医科大学附属北京积水潭医院主任医师李庭介绍,走路确实是一个不错的锻炼方式,但强行追求步数,可能会增加损伤风险。会上,首都医科大学附属北京积水潭医院主任

    2025年10月28日
    54
  • 古人建房子有多讲究?清代古建的“尺寸密码”,藏着千年智慧

    “看古建只会拍照打卡?2023年故宫养心殿工地曝出消息:工人还在用清朝的3.2寸斗口尺,误差不到一毫米,瞬间打脸那些说‘古代靠蒙’的键盘侠。”数字不会撒谎。清华团队把87处清建筑扫进电脑,91%的面阔进深比锁死1:1.6,黄金分割被老祖宗玩成了流水线。更狠的是柱体收分1/100,模拟一跑

    2025年11月29日
    27
  • 【五一不放假,五一不放假犯法吗】

    如果五一公司不放假,违反国家规定吗?如果公司在五一期间不放假,但依法支付员工三倍工资,这是符合国家法规的。用人单位在法定节假日不安排员工休假且不支付相应报酬的情况下,员工可以向工会和当地劳动行政部门进行投诉。我国法律规定,在法定节假日,用人单位必须依法安排员工休假。五一作为法定节日,公司必须安

    2025年06月14日
    145
  • 会友山西麻将究竟有没有挂(确实真有挂)(友约山西麻将安卓版)

    山西立四麻将有什么特殊之处?〖壹〗、山西立四麻将的特殊之处在于其特殊的起牌规则和听口规则:特殊的起牌规则:游戏开始时,玩家首先起的四张麻将牌会被置于最前方,并且在游戏过程中,除非进行碰牌或达到听口状态,否则这四张牌不能移动。这四张牌为玩家提供了可能的听口方向,也限制了玩家的出牌选取。〖贰〗、山西的

    2025年08月15日
    141

发表回复

本站作者后才能评论

评论列表(4条)

  • 从始至终
    从始至终 2025年11月30日

    我是视听号的签约作者“从始至终”!

  • 从始至终
    从始至终 2025年11月30日

    希望本篇文章《从模仿到自主,机器人还需跨越三重挑战|专访NTU助理教授王子为》能对你有所帮助!

  • 从始至终
    从始至终 2025年11月30日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 从始至终
    从始至终 2025年11月30日

    本文概览:AI、机器人和未来。在新加坡南洋理工大学的一间实验室里,一只机械臂正在尝试完成一个看似简单的任务:抓取一个苹果。这个动作,对于三岁的孩童来说不过是本能,但对于当今最先进的机器人...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们