首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这“两者兼得”一直是巨大挑战。传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛...

人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言 ,这“两者兼得”一直是巨大挑战。

传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化  。而新方法试图将3D模型与特定的视觉语言模型(VLM)“锁死 ” ,这不仅限制了模型的感知能力(例如 ,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer)  ,一个创新的端到端大型统一Transformer ,首次将空间重建与实例级上下文理解融为一体。

为解决上述问题,本研究的主要贡献在于:

  • 端到端统一框架:

提出IGGT,一个大型统一Transformer ,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练  。

  • 大规模实例数据集:

构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景  、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 。

  • 实例解耦与即插即用:

首创“实例接地的场景理解” (Instance-Grounded Scene Understanding) 范式 。iGGT不与任何特定VLM绑定 ,而是生成实例掩码作为“桥梁” ,使其能以“即插即用 ”的方式与任意VLMs(如CLIP, OpenSeg )和LMMs(如Qwen-VL 2.5 )无缝集成  。

多应用支持:该统一表示极大地扩展了下游能力,是首个能同时支持空间跟踪、开放词汇分割和场景问答(QA)的统一模型 。

首个实例理解3D重建模型	,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

InsScene-15K数据集的构建

InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据 ,每种来源的处理方式不同。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

图2

合成数据 (Synthesis Data - 如 Aria, Infinigen):

这是最直接的。在模拟环境中,RGB图像 、深度图、相机位姿和物体级的分割掩码被同时生成 。 由于这些模拟生成的掩码是“完美准确的” ,因此无需任何后处理,直接使用。

真实世界视频采集 (Video Captured - 如 RE10K):

这个流程如图2(a)所示,是一个定制化的SAM2视频密集预测管线 。 首先 ,在视频的第0帧使用SAM生成密集的初始掩码提议 (Initial Mask Proposals)  。 然后,使用SAM2视频对象分割器将这些掩码在时间上向前传播 (Propagate Masks Forward) 。 为了处理新出现的对象或避免漂移,管线会迭代式地添加新关键帧:如果未被覆盖的区域超过阈值 ,就在新帧上重新运行SAM来发现新物体 。 最后,执行一次双向传播 (Bi-directional Propagation) 来确保整个视频序列的高度时间一致性  。

真实世界RGBD采集 (RGBD Captured - 如 ScanNet++):

这个流程如图2(b)所示,是一个掩码优化流程 (Mask Refinement Pipeline) 。 ScanNet++ 自带的3D标注是粗糙的 。流程首先将这些3D标注投影到2D图像 ,以获得具有一致ID的初始GT掩码  。 同时,使用SAM2为同一张RGB图像生成形状精确但没有ID的细粒度掩码提议 。 关键步骤是匹配与合并:将SAM2生成的精细掩码与投影的粗糙GT掩码进行对齐,为精细掩码分配正确的、多视图一致的ID 。 通过这种方式 ,管线极大地提升了2D掩码的质量 ,使其既保持了3D的ID一致性,又具有了SAM2级别的形状准确性  。

IGGT模型的构建

IGGT架构概览:

输入图像被编码为统一的Token表示,随后由几何头(Geometry Head)和实例头(Instance Head)分别处理 ,以同时生成高质量的几何重建和实例接地的聚类结果 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

IGGT 的架构由三部分关键组件构成:

统一 Transformer (Large Unified Transformer)

遵循 VGGT ,模型首先使用预训练的 DINOv2 提取图像块级 Token。随后,通过 24 个注意力模块对多视图图像的 Token 进行 intra-view self-attention 和 global-view cross-attention,将其编码为强大的统一 Token 表示 Ti。

双解码头与跨模态融合 (Downstream Heads and Cross-Modal Fusion)

统一 Token 被送入两个并行的解码器:

  • Geometry Head: 继承自 VGGT ,负责预测相机参数 、深度图和点图 。
  • Instance Head: 采用 DPT-like 架构,解码出实例特征。
  • Cross-Modal Fusion Block: 为了让实例头感知精细的几何边界,团队设计了一个跨模态融合块。它通过一个窗口滑动交叉注意力 (sliding window cross attention) ,将几何头的空间结构特征高效地嵌入到实例表示中,显著增强了实例特征的空间感知能力 。

3D 一致性对比监督 (3D-Consistent Contrastive Supervision)

为了让模型仅从 2D 输入中学到 3D 一致的实例特征,团队设计了一个多视角对比损失 Lmvc。 该损失的核心思想是:在特征空间中 ,“拉近”来自不同视角但属于同一 3D 实例的像素特征 ,同时“推开 ”属于不同实例的特征。

其中 m(pi) 和 m(pj) 分别是像素 pi 和 pj 的实例 ID,而 fpi 和 fpj 是其对应的实例特征 。

基于实例Grounded的场景理解

其核心思想是将3D模型的统一表示与下游的特定语言模型(VLMs 或 LMMs)进行“解耦 ” 。

这与以往的方法不同,以往的方法通常将3D模型与特定的语言模型(如LSeg)“紧密耦合”或“强行对齐” ,这限制了模型的感知能力和扩展性 。首先利用无监督聚类(HDBSCAN)将IGGT预测的3D一致性实例特征分组,从而将场景分割为不同的对象实例  。

这些聚类结果随后被重新投影以生成3D一致的2D实例掩码 ,这些掩码充当“桥梁 ”  ,实现了与各种VLMs(如CLIP 、OpenSeg)和LMMs(如Qwen2.5-VL)的“即插即用”式集成 。这种解耦范式极大地扩展了模型的应用范围:

  • 实例空间跟踪 (Instance Spatial Tracking): 利用聚类生成的3D一致性掩码,可以在多个不同视角的图像中密集地跟踪和分割特定对象实例,即使在相机大幅运动的情况下也不易丢失目标 。
  • 开放词汇语义分割 (Open-Vocabulary Semantic Segmentation): 实例掩码可以作为“提示”(prompts) ,被送入任意现成的VLM(如OpenSeg)  。VLM会对每个掩码定义的区域分配一个语义类别,从而实现开放词汇的分割 。
  • QA场景定位 (QA Scene Grounding):这种解耦的实例聚类可以与LMM(如GPT-40或Qwen-VL 2.5)交互 。例如,可以在多个视图中高亮显示同一个实例的掩码 ,然后向LMM提问,以在3D场景中执行以对象为中心的复杂问答任务 。

实证结果

相比于已有的方法,IGGT是唯一一个能够同时做到重建、理解和跟踪三个任务的模型 ,并在理解和跟踪指标上大幅提升 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

在实例3D跟踪任务上,IGGT的跟踪IOU和成功率高达70%和90% ,是唯一一个能够成功跟踪物体消失又重新出现的模型。

IGGT与SAM2和SpaTracker+SAM进行比较。为了清晰起见,所有实例都使用不同的 ID 和颜色进行可视化 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

团队同时还针对场景做了充分的可视化实验,可以看出IGGT 能够生成3D一致的基于实例的特征,这些特征在多个视图中保持区分性:同一类别的多个实例在 PCA 空间中呈现相似但可区分的颜色。

将3D一致的PCA 结果与基于实例特征的聚类掩码进行可视化。PCA 中相似的颜色表示实例间的特征相似度更高 。对于聚类掩码 ,同一个对象实例在多个视图中共享相同的颜色。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

在2D / 3D开放词汇分割任务上 ,得益于Instance-grounded paradigm的特性,可以无缝接入最新的Vision-Language Model以提升模型的查询性能。

Scannet 和 Scannet++ 上的 2D 开放词汇分割的定性结果:

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

Scannet 和 Scannet++ 上的 3D 开放词汇分割的定性结果 。

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

此外,团队还可以利用实例掩码(instance masks)构建视觉提示(visual prompts) ,并将其接入如 Qwen-VL 等大型多模态模型(LMM),以实现更复杂的针对场景中特定物体的查询与问答任务。相反,即便是当前最先进的 LMM 模型 ,在处理多视图或三维场景理解方面仍存在显著的局限。

与 vanilla Gemini 2.5 Pro 相比,QA 场景理解的应用:

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型	,助理场景理解

论文链接:https://arxiv.org/abs/2510.22706

项目主页:https://lifuguan.github.io/IGGT_officialHuggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K

本文来自微信公众号“量子位 ”,作者:iGGT团队 ,36氪经授权发布 。

本文来自作者[采波]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/zheh/202511-54252.html

(43)

文章推荐

  • 就在今天6月24日上午!中国女篮传来关于李梦、张子宇的最新消息

    今天朋友圈全在传中国女篮的消息。上午刷到两条事,李梦把社交平台身份改回国青队了,张子宇彻底进了国家队大名单。这两件事背后门道不少,说清楚得从宫鲁鸣上任开始讲起。宫鲁鸣当教练第一把火就烧了李梦。理由是伤病和训练问题,但李梦以前可是在亚洲赛场上立过大功的。她自己发声明啥也不抱怨,就感谢国家队这么多年。那

    2025年06月25日
    115
  • 我来教大家“手机打牌开挂下载安装(助赢神器通用版)

    绝不能错过的!微乐河南麻将专用神器下载(输赢有什么规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河南麻将专用神器下载是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年08月29日
    87
  • 实测分享“微乐海南麻将如何让系统发好牌(助赢神器通用版)

    软件神器超棒!微乐麻将小程序赢的技巧(为什么有人一直赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐麻将小程序赢的技巧是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月23日
    63
  • 陈铭自曝哥哥因警察父亲破案遭报复:脑部被注射药物,智力永远停留在1岁半,已在前年去世

    节目花絮曝光:陈铭揭开尘封多年的家庭伤疤2025年8月22日,一档名为《非正式会谈》的节目发布了一段未播出花絮,在这段短短几分钟的视频里,嘉宾陈铭罕见地谈起了自己原生家庭中不愿提及的往事——他的亲生哥哥是一名智力残障者,而这一切的根源,都源于父亲作为警察执行公务后遭遇的恶意报复。视频中

    2025年09月29日
    61
  • 朱媛媛离世四个月,辛柏青就惨遭冒充,狐狸尾巴藏不住了

    逝者理应被缅怀,生者有权守安宁。2025年5月21日,演员辛柏青发布的一则讣告,让无数人知晓了妻子朱媛媛离世的消息——这位国家话剧院一级演员,在与癌症抗争近五年后,于5月17日永远离开,终年51岁。讣告里那句“她用坚定提醒家人不虚度光阴”,藏着夫妻三十余年感情的厚重,也引

    2025年09月30日
    67
  • 路虎当年封神,奇瑞如今翻车,车企测试变表演

    文|锐观经纬编辑|锐观经纬哈喽,大家好,小锐这篇行业是聚焦车企那些越来越离谱的测试,路虎2018年爬天门山一战封神,奇瑞如今同款操作却翻车,为啥车企测试渐渐变成了博眼球的表演?这些看似惊险的极限挑战,到底是技术实力的背书,还是内卷之下的无奈之举,背后藏着中国汽车业怎样的生存困境?天门山测试的

    2025年12月08日
    26
  • 实测教程“星悦云南麻将有挂吗(助赢神器通用版)

    这软件超神了!心悦麻将踢坑输赢规律(可以设置输赢吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”心悦麻将踢坑输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月04日
    78
  • 实测辅助“普通自动麻将机控牌器(助赢神器通用版)

    软件神器超优!微信小程序多乐跑得快辅助开挂工具(输赢规律技巧)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序多乐跑得快辅助开挂工具是一款可以让一直输的玩家,快速成为一个“必胜”的ai

    2025年09月21日
    65
  • 聊聊感悟

    亲爱的宝妈朋友们,今天是我在头条创作的第三天,特别想和你们聊聊心里话。三天前,我鼓起勇气按下了“发布”键。看着那些稚嫩的文字,心里满是忐忑——会有人看吗?值得坚持下去吗?做自媒体和当妈妈其实很像,都是需要勇气的新旅程。宝宝学走路会摔倒,我们学创作也会笨拙。可正是这些不完美,让我们如此真实。

    2025年11月30日
    27
  • OpenAI首席执行官山姆·阿尔特曼:要让AI融入所有政府流程,覆盖整个经济

    记者杜涛迪拜时间10月14日,GITEX展会召开的第二天,G42与OpenAI开展一场主题为“AI原生社会”线上对话。OpenAI首席执行官山姆·阿尔特曼说:“在过去几年里,我们看到AI已经不再仅仅是一个玩具,而是人们在工作中赖以提高生产力的工具。我认为当前仍处于这段旅程的早期阶段,在未来一到两

    2025年10月15日
    63

发表回复

本站作者后才能评论

评论列表(4条)

  • 采波
    采波 2025年11月01日

    我是视听号的签约作者“采波”!

  • 采波
    采波 2025年11月01日

    希望本篇文章《首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解》能对你有所帮助!

  • 采波
    采波 2025年11月01日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 采波
    采波 2025年11月01日

    本文概览:人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这“两者兼得”一直是巨大挑战。传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们