你的位置：开云体育官方网站 - KAIYUN > 开云app下载 > 开云体育官方网站中科院自动化所等机构联手打破：一秒钟，让AI从视频中“读懂”物体的物理灵魂

开云体育官方网站中科院自动化所等机构联手打破：一秒钟，让AI从视频中“读懂”物体的物理灵魂

发布日期：2026-05-09 06:21 点击次数：163

这项由中国科学院自动化辩论所、清华大学与GigaAI统一开展的辩论，于2026年4月发表，论文编号为arXiv:2604.07882。有深嗜深化了解的读者不错通过该编号在arXiv平台查询齐备论文。

**辩论节录：当AI起原显露"东西是什么作念的"**

用手机顺手拍一段玩物鸭子从桌上掉落、弹跳、停驻来的视频，短短一秒钟之内，一个AI系统就能告诉你：这只鸭子概况有多重、执下去有多硬、会不会赶紧弹回归、放在瓷砖地上滑不滑。不仅如斯，它还能帮你在电脑里建出一个不错模拟交互的"数字孪生"鸭子，你不错在杜撰天下里平缓拉扯、挤压它，看它如何变形反应。

这听起来像魔法，但辩论团队给它起了一个塌实的名字：ReconPhys——从单段视频中同期重建外不雅与物理属性的系统。在此之前，访佛的责任要么需要从多个角度架设多台录像机，要么需要缱绻机花上高出一个小时去反复"意想迁移"。而ReconPhys把这个过程压缩到了不及一秒。

这件事为什么值得柔软？因为咱们生存的天下里充满了软的、会变形的东西——枕头、生果、布娃娃、橡皮泥、食品，致使东谈主体组织。机器东谈主要是想要抓取这些东西而不把它们执烂，游戏里的杜撰物体要是想要阐发得像真实材料，齐需要当先"知谈"这个物体是硬是软、有多重、有多弹。往常让缱绻机得回这些信息极为贫困。面前，一段普通的手机视频，也许就够了。

---

一、物理天下的"难题"：软软的东西为何让AI头疼

要显露ReconPhys的道理，先得显露这个问题究竟难在那处。

一块石头掉在地上，轨迹浅显，容易预计。但一只充气玩物鸭子掉在地上，情况就复杂多了：它落地时会被压扁一丝，然后弹起来，弹起的高度取决于它里面气压和外表材料的弹性，滑动的距离取决于大地与鸭子材质之间的摩擦力，通盘过程中鸭子的时局在抑止地变化。这种"非刚性物体"（也便是不错变形的东西）的领略，背后荫藏着物理天下信得过的复杂性。

从一段二维视频中还原这个三维天下的物理信息，就好像你只看到了一幅画的影子，却要猜出画上的脸色是油画如故水彩、画布是粗麻如故细棉。信息严重不及，可能性取之不尽用之不竭。

现存的工夫大体分两条路。一条路是纵情作念"视觉重建"——把视频里的物体在三维空间里还原出来，画面不错很排场，但重建出的数字物体莫得物理道理，你无法在里面模拟"用手指戳一下会若何"。另一条路是"物理仿真重建"——同期还原视觉和物理属性，但代价是每换一个新物体，缱绻机就要从新花上几十分钟致使几小时反复尝试，慢得让东谈主难以骨子使用，况且通常还需要多台录像机或者东谈主工标注信息。

ReconPhys的辩论团队对准的，恰是这条慢路的环节所在：为什么每个物体齐要从新学一遍？

---

二、中枢念念路：让AI像有教养的工匠一样，一眼看出材质

有教养的木工走进丛林，看一眼树木的纹理和色调，就能大致判断这是硬木如故软木、相宜作念产物如故作念纸浆。他不需要对每棵树齐作念遏止性测试，因为他在往常的教养里依然学会了"视觉特征"和"物理属性"之间的相关功令。

ReconPhys想让AI作念通常的事。辩论团队历练了一个神经网罗（不错显露为一种师法东谈主类神经系统结构的缱绻秩序），让它在多数不同物体、不同材质的视频上反复学习：哪种领略模式对应哪种物理参数。历练杀青之后，这个网罗就具备了那位老木工的"目力"——濒临一段新的视频，它能平直输出谜底，而不需要再迟缓"摸索"。

这种格式在机器学习领域有个异常的名字叫"前馈推断"（feedforward inference），深嗜是信息只从输入流向输出，莫得来往反复迁移的过程。就好像你背下了乘法表之后，算7乘以8不需要再一步一步数，而是平直直肠直肚56。

更关键的是，ReconPhys的历练完全不依赖东谈主工标注的"物理标签"——辩论团队不需要有东谈主拿着精密仪器去测量每个历练物体的硬度和质地然后标注出来。系统通过一种叫"自监督"的计谋我方学习：把预计的物理属性输入物理模拟器，模拟出物体的领略，再把模拟的画面和真实视频作念对比，用画面的差距来反向修订物理参数的预计。这就像一个学生莫得真挚给圭臬谜底，而是通过"作念实验看限定对不合"来我方摸索出功令。

---

三、系统架构：两个众人单干和洽的"双脑"联想

ReconPhys的里面结构给与了双分支联想，不错显露为两个各有专长的众人在同期责任，然后把各自的恶果合并。

第一个众人矜重"看外形"。给定视频的第一帧图像，这位众人会构建出物体的三维外不雅模子，给与的是现时缱绻机视觉领域相称流行的3D高斯泼溅工夫（3D Gaussian Splatting，简称3DGS）。平时来说，这个工夫把一个三维物体默示成空间中密密匝匝分散的许多小"椭圆气泡"，每个气泡记载了它所在位置的色调、透明度和时局信息。这些气泡组合在一谈，就能渲染出相称传神的物体外不雅。这位外不雅众人使用的是依然事先历练好的现成模子，在ReconPhys的历练过程中，它的参数被锁住不动，只矜重提供领会的几何和外不雅基础。

第二个众人矜重"感受动态"。它拿到的是整段视频，逐帧分析物体的领略模式。它的里面使用了一个名为InternViT的视觉编码器来索取每一帧的视觉特征，然后用一个带有自爱目力机制的ResNet网罗把这些逐帧特搜集聚成一个包含时代变化信息的紧凑默示，最终通过一个多层感知机解码器输出四个物理参数的预计值：质地、刚度（弹簧劲度总共）、阻尼（访佛弹簧的减震才调）、摩擦总共。

这两个众人的恶果通过一套"绑定机制"相接起来：外不雅众人生成的三维气泡，会被对应地挂载到一个弹簧-质点系统（spring-mass system）上。弹簧-质点系统是物理仿真领域的经典模子，把一个物体想象成由好多质点（类比物体里面的节点）通过弹簧相互相接而成的网罗。当你用手推一个质点，弹簧会传导力，带动其他质点领略，通盘网罗就产生了像真实弹性物体一样的变形。三维气泡绑定到这些质点上之后，质点的领略就平直驱动了视觉上的变形。

在工夫细节上，质点的采样不是平直从物体名义取，而是在通盘物体体积内均匀分散，这么能保证模拟更领会，幸免出现物体"从里面塌陷"的奇怪风景。质点数目远少于三维气泡的数目，缱绻遵守更高。三维气泡的位置更新则使用了反距离加权插值，距离某个质点越近的气泡，受到这个质点领略的影响就越大。

---

四、物理模拟的数学引擎：力、弹簧与碰撞

显露ReconPhys不需要深化数学，但了解它背后物理模拟的基本道理，波音(bbin)体育官方网站能匡助咱们明白为什么它的预计比其他方法更"真实"。

弹簧-质点系统中，每个质点在每个时刻齐受到三种力的作用。第一种是弹簧力：当两个质点之间的距离偏离了它们的"当然长度"（运转距离），弹簧就会产生一个把它们拉回原位的力，这个力遵守广义胡克定律，弹得越远，拉力越强。第二种是阻尼力：访佛于物体在介质中领略时的阻力，两个相互领略的质点之间会产生一个违背相对领略的力，这就施展了为什么真什物体不会长期弹跳下去。第三种是重力：便是地球把物体往下拽的阿谁力，大小等于质地乘以重力加快度。

这三种力重叠起来，通过半隐式欧拉积分方法（一种数值缱绻工夫）来预计下一时刻质点的位置和速率。这就好比在纸上一步一步推算枪弹遨游的轨迹，仅仅这里的"枪弹"是相互相接的弹性网罗。当质点领略到大地以下时，还会触发一个碰撞处理机制，模拟物体撞地后的反弹，并证据摩擦总共迁移水平宗旨的速率损耗。

整套模拟过程是完全可微分的，深嗜是"画面质地对物理参数的梯度"（不错显露为"转换哪个参数能让预计画面更接近真实视频"）不错被精准缱绻出来。这是通盘系统能够自我学习、无需东谈主工标注的关键所在。

---

五、"自我免强"历练计谋：不依赖外部手杖学会走路

历练ReconPhys的过程中，辩论团队遭受了一个经典的机器学习窘境，并给出了一个奥妙的处理有筹商。

窘境在于：在历练时，要是每一步的物理模拟齐使用真实的物体景色算作起先，那网罗学出来的预计才调可能只在这种"有真实参照"的守望条款下好用。但骨子测试时，你唯有视频，莫得真实景色，每一步只可用上一步的预计限定算作起先，瑕玷会持续蕴蓄，导致预计越来越偏。

处理有筹商叫作念"自我免强"（Self Forcing）：在历练时，也让模拟器从我方上一步的预计景色开赴，而不是依赖真实景色。这就迫使网罗学会在我方的预计瑕玷存在的情况下依然保持领会，而不是依赖外部修订。就好像训练走钢丝，从一起原就不给保护绳，而不是先靠保护绳训练然后骤然撤掉，反而能培养出信得过的均衡才调。

与此同期，为了堤防在长序列模拟时梯度爆炸或肃清的问题，历练过程给与了截断反向传播计谋：在每个模拟秩序，上一步的景色在传递给下一步之前会被"断开梯度相接"，只让现时秩序的渲染瑕玷去更新物理参数，而不是让梯度沿着通盘历史链条一齐传递。这就像一个戮力跑团队，每个东谈主只矜重我方这一棒的修订，而不是要求终末一棒的东谈主对第一棒的通盘诞妄矜重。

历练宗旨相称浅显平直：让模拟渲染出来的每一帧图像，和真实视频的每一帧，在像素级别上尽可能相似。这个宗旨是纵情可微分的，通盘从视频输入到物理参数预计再到渲染输出的链条，kaiyun sports齐不错用梯度下落来端对端优化。

---

六、合成数据集：为AI创造一个专属的"物理历练场"

历练这么一个系统，需要多数配对好的数据：既要有物体的视频，又要知谈这个物体的真什物理参数。实验天下中简直不存在这么的大鸿沟数据集。辩论团队于是我方造了一个。

通盘数据制造进程不错分几个要津来显露。第一步是挑选合适的三维物体。团队从一个叫Objaverse-XL的超大型三维物体库中开赴，这个库里有高出一千万个三维模子。然后用Qwen3-8B这个话语模子，证据语义标签筛选出相宜作念非刚性动态仿的确物体，比如玩物、食品、软包等，最终选出500个。关于每个物体，渲染四个正交视角的图像，再用TRELLIS这个三维生成用具把它重建成高质地的3DGS默示。

第二步是为每个物体树立物理参数。辩论团队为每个物体就地抽取物理参数：质地在0.2到6.0之间变化，刚度在10到1200之间隐敝从极软到较硬的范围，阻尼在0.1到5.0之间，摩擦总共在0到1之间。每个物体配10组不同的物理参数，这么合并个外形不错呈现完全不同的物理行为，匡助网罗学会把时局和物理属性解耦。

第三步是仿真并渲染视频。对每个（物体，物理参数）组合，用弹簧-质点系统模拟一段30帧的摆零碎体轨迹，包括落地弹跳的过程，然后从四个正交录像机角度渲染成512×512分辨率的视频。最终酿成约5000条视频数据，每条视频齐配有精准的物理参数真值。

一个细节值得一提：为了保证每个物体的质点采样限定可复现，辩论团队用物体的独一标记符生成哈希码算作采样就地种子，确保无论历练如故测试，合并个物体老是得到完全疏导的质点分散。这保证了物理参数的物理可施展性，而不会因为采样不同而混浊对比。

最终，496个物体中450个用于历练，46个用于测试跨物体泛化才调。

---

七、实验限定：数字阐明的差距有多悬殊

实验对比的基准方法有两个。一个是4DGS（4D高斯泼溅），这是面前动态场景重建的主流方法之一，擅长重建往常发生的领略，但莫得物理显露，无法预计将来。另一个是Spring-Gaus（弹簧高斯），这是ReconPhys最平直的竞争敌手，通常把弹簧-质点系统和3DGS联接在一谈，但需要多视角输入和逐场景优化（每个新物体齐要单独跑上高出一小时）。

在46个从未见过的测试物体上，限定差距特等显赫。在视觉重建质场所面，ReconPhys得到了33.84 dB的PSNR（峰值信噪比，掂量图像明晰度和真实度的筹商，越高越好），而Spring-Gaus唯有22.26 dB，4DGS有30.33 dB。在三维几何精度方面，ReconPhys的Chamfer Distance（掂量预计三维时局和真及时局差距的筹商，越低越好）仅为0.001，而Spring-Gaus是0.466，4DGS是0.593——这意味着ReconPhys的几何重建瑕玷大要是竞争敌手的五百分之一到六百分之一。

更能体现物理显露上风的是将来预计任务：给定前20帧视频，预计接下来10帧会发生什么。4DGS完全无法作念这个任务（因为它莫得物理模子，不知谈物体接下来会如何领略）。Spring-Gaus能作念，但预计质地的PSNR唯有13.27 dB。ReconPhys的将来预计PSNR达到21.64 dB，高出8.37 dB，特等于图像质地在主不雅感受上有了昭彰的跳跃式栽植。

在物理参数自己的预计精度上，关于刚度这个最难估量的参数，Spring-Gaus的平均完全瑕玷高达827.67，而ReconPhys降到了297.3。关于阻尼，Spring-Gaus瑕玷2.546，ReconPhys是1.151。质场所面Spring-Gaus是2.276，ReconPhys是1.337。摩擦总共是独一ReconPhys略逊于Spring-Gaus的筹商（1.508对1.082），但差距很小，且在其他所有计划上ReconPhys齐更好。

处理速率方面，Spring-Gaus和4DGS处理每个新物体齐需要高出1小时，而ReconPhys不及1秒。

---

八、物显露耦实验：合并张脸，不同的"灵魂"

辩论团队还异常联想了一组实验来考据一个关键才调：系统能弗成把物体的时局和它的物理属性分开来显露？

具体作念法是：对合并个物体（比如一个圆柱体、一个汉堡包、一只灯笼），分派两组完全不同的物理参数（一组很软、弹性很强，一组较硬、阻尼很大），生成两段视频，看系统能弗成从这两段视频中预计出不同的物理参数，同期在外不雅和几何重建上保持一致的高质地。

限定标明，ReconPhys在8个不同物体的16组配对测试中，PSNR全部高出30 dB，最高达到36.86 dB，而Spring-Gaus最高唯有26.003 dB。在三维几何瑕玷方面，ReconPhys的CD值开阔在0.0002到0.0027之间，Spring-Gaus则在0.4145到0.5324之间。更垂危的是，从可视化限定来看，对合并时局分派不同物理参数后，ReconPhys预计出了昭彰不同的领略轨迹，准确地别离出了"软"和"硬"的行为互异。这阐明系统确乎在用物理属性而不是在回首时局来驱动领略预计。

---

九、机器东谈主抓取的骨子行使：从视频到可操控的数字孪生

辩论团队还展示了一个齐备的实验行使链条，把通盘系统串联到机器东谈主非刚性物体操控的场景里。

通盘进程大致是：拍一段物体摆零碎体的视频，用SAM（Segment Anything Model，一种通用的图像分割用具）把物体从布景等分离出来，然后把分割好的视频送入ReconPhys，在不到一秒内同期得到3DGS外不雅模子和绑定的弹簧-质点物理系统。把这套数字孪生导入杜撰仿真环境（基于PhysTwin框架搭建），就不错通过键盘操控"杜撰手"去拉扯、挤压、弯折数字物体，不雅察它的物理反映。

辩论团队演示了四个场景：拉伸一个铅笔袋，挤压一个枕头，拉伸一个汉堡包，以及同期挤压和拉伸一个玩物。在这些场景中，数字物体阐发出了与真实材料相符的变形行为——枕头被挤压后会反弹，汉堡包被拉伸后会呈现出访佛面团的延展性。

这个行使的道理在于，它提供了一条把实验天下物体快速数字化为可交互物理模子的通谈，关于机器东谈主历练数据的自动生成、杜撰实验中的物体交互联想、以及"实验到仿真"（Sim-to-Real）这一机器东谈主学习的中枢范式，齐有平直的工程价值。往常赞成这么一个数字孪生需要专科东谈主员手动建模和参数标定，耗时数小时致使数天；面前一段手机视频加上不到一秒的处理，就完成了通常的责任。

---

说到底，ReconPhys作念的这件事，不错用一句话概述：它让缱绻机第一次能够在不需要任何异常测量仪器、不需要专科东谈主员标注、不需要漫长恭候的前提下，从一段普通视频里同期显露物体"长什么样"和"是什么材质"。

这件事的道理，放在不同的语境下会有不同的解读。关于机器东谈主辩论者来说，这意味着机器东谈主不错在见到一个新物体的骤然，就对如何抓取它有合理的预判。关于游戏和杜撰实验的诱惑者来说，这意味确凿验天下的物体不错简直无缝地复制进数字天下，带着真实的物理行为。关于更普通的用户来说，这意味着将来的某一天，一个购物行使也许能告诉你"这款沙发摸起来概况是这种手感"，或者一个家装软件能让你在手机里感受到"这块地毯踩上去的阻尼感"。

固然，面前的系统也有其范畴。实验主要在合成数据上考据，真实天下的视频唯有定性展示，还莫得大鸿沟定量评估。系统面前假定物体是均匀材质（每个质点和弹簧的参数齐疏导），关于复合材料物体（比如有硬骨架和软填充的玩偶）的阐发还有待探索。历练所依赖的摆零碎体场景，在实验中也不老是那么容易得回。

这些是这项辩论留住的怒放问题，亦然将来值得赓续探索的宗旨。要是你对其中的工夫细节感到好奇，齐备的论文不错在arXiv平台通过编号2604.07882查阅，通盘公式、数据和实验设立齐在其中有详备的刻画。

---

**Q&A**

Q1：ReconPhys预计的物理属性具体是哪几个？

A：ReconPhys会预计四个物理属性：质地（物体有多重）、刚度（弹性有多强，访佛弹簧的硬度）、阻尼（弹动后衰减的快慢，访佛减震才调）和摩擦总共（物体与大地之间的滑动阻力大小）。这四个参数共同决定了一个弹性物体在受力后会如何领略和变形。

Q2：ReconPhys为什么不需要东谈主工标注物理参数就能历练？

A：ReconPhys给与了"自监督"历练计谋。浅显来说，系统把我方预计的物理参数输入物理模拟器，模拟出物体领略后渲染成图像，然后平直和真实视频对比像素互异，用这个互异来反向修订物理参数的预计。通盘过程不需要有东谈主告诉系统"这个物体刚度是些许"，它通过"预计→模拟→对比→修正"的闭环我方摸索出功令。

Q3：弹簧-质点系统和3D高斯泼溅是如何联接在一谈责任的？

A：两者通过"绑定机制"相接。3D高斯泼溅矜重物体的视觉外不雅，把物体默示为空间中多数小椭圆气泡的连合。弹簧-质点系统矜重物理领略，用少许质点和弹簧网罗模拟物体的变形。气泡被绑定到质点上开云体育官方网站，质点领略时，隔壁的气泡通过距离加权插值陪伴挪动，使外不雅随着产生真实的变形效果。这么就能同期得到高质地的视觉渲染和物理正确的领略预计。

白金会(PlatinumGaming)官网手机版

上一篇：开云sports 新视线丨深入推动数字中国开发下一篇：没有了