智能多媒体实验室

实验室1篇论文被ICLR 2026接收录用


实验室1篇论文被ICLR 2026接收。ICLR 2026会议是人工智能顶级学术会议之一,每年举办一届。该届会议将于2026年4月23-27日于巴西里约热内卢举行。

题目: VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization

作者:林佳靖,蒋庶,曾清源,王贞众,江敏

摘要:物体的本质动力学决定了它在真实世界中的物理行为,对于实现三维资产的物理真实的交互仿真至关重要。现有方法试图从视觉观测中推断物体的本质动力学,但普遍面临两大挑战:一类方法依赖人工定义的本构先验,难以与实际动力学性质对齐;另一类使用神经网络建模本质动力学,导致可解释性差、泛化能力弱。为解决这些问题,我们提出VisionLaw——一种从视觉观测中推断可解释的本质动力学的双层优化框架。在上层优化中,我们引入基于大语言模型的解耦本构演化策略:通过提示词工程指导大语言模型生成并修正本构定律,同时内置解耦机制以大幅降低大语言模型的搜索复杂度。在下层优化中,我们设计视觉引导的本构评估机制:利用视觉仿真评估生成的本构定律与视觉观测背后的本质动力学的一致性,从而指导上层演化过程。在合成数据集和真实世界数据集上的实验表明,VisionLaw能够有效从视觉观测中推断可解释的本质动力学。该方法显著优于SOTA方法,并在新场景的交互仿真中展现出强大的泛化能力。

该论文第一作者是2023级硕士研究生林佳靖,通讯作者是江敏教授。并由蒋庶、曾清源、王贞众助理教授共同完成。