实验室2篇论文被ACM MM-25接收。ACM MM-25会议是人工智能领域最重要的国际会议之一(CCF-A),每年举办一届。该会议将于2025年10月27日-10月31日于爱尔兰都柏林举行。
1. 题目:Phys4DGen: Physics-Compliant 4D Generation with Multi-Material Composition Perception
作者:林佳靖,王贞众,许得隽,蒋庶,龚云鹏,江敏
摘要:4D生成旨在生成符合用户输入条件(如图像、3D内容)的动态3D内容,可广泛应用于动画、游戏、虚拟现实等场景。现有工作尝试引入物理仿真(如物质点法)使3D内容动态化,从而生成物理真实的4D内容。然而这类方法通常假设物体由单一材料构成,忽略了现实中物体常由多种异质材料组成,进而导致局部变形不真实,甚至在大变形下出现结构坍塌。此外,这类方法依赖用户手动设置材料属性。本文针对这些挑战,提出了一种物理驱动的4D生成框架—Phys4DGen,其引入了多材料复合感知到4D生成过程中,实现了快速的、用户友好的、物理真实的4D生成。具体而言,Phys4DGen首先将视觉分割模型(如SAM2)的能力扩展至3D空间,实现精确的表面材料分组;随后引入内部物理结构发现策略,建模物体内部的材料分布;最终通过蒸馏多模态大语言模型中蕴含的丰富物理知识,实现快速且自动的材料识别。在合成数据集和真实世界数据集上的实验表明,Phys4DGen能够有效感知复合物体中的多种异质材料,生成物理真实且高保真的4D内容,性能显著优于当前SOTA方法。
该论文第一作者是2023级硕士研究生林佳靖,通讯作者是江敏教授。并由王贞众助理教授、许得隽、蒋庶、龚云鹏共同完成。

2. 题目:HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
作者:阮豪,林金亮,赖映鑫,罗志明,李绍滋
摘要:自然语言引导无人机为目标匹配与导航等任务提供了灵活的交互方式,但其广阔视野和复杂语义关系对视觉语言理解提出了更高要求。现有视觉语言模型多聚焦全局对齐,缺乏细粒度理解,而层次建模方法又依赖精确实体划分与严格语义关系,难以适应复杂场景。为此,我们提出分层跨粒度对比与匹配学习(HCCM)框架,其包含两个核心模块:区域-全局图文对比学习(RG-ITC)通过局部与全局语义对比建模跨模态层次关系;区域-全局图文匹配学习(RG-ITM)则评估局部与全局间的语义一致性,无需严格关系约束。此外,为缓解无人机场景中文本描述不完整或歧义问题,HCCM引入动量对比与蒸馏机制(MCD)增强对齐鲁棒性。实验证明,HCCM在GeoText-1652上达到了最优性能,图像与文本检索的Recall@1分别为28.8%和14.7%,并在未见的ERA数据集上实现39.93%的平均召回,展现出优异的泛化能力和鲁棒性。
该论文第一作者是厦门大学信息学院2024级硕士研究生阮豪,通讯作者是罗志明副教授。由林金亮,赖映鑫、李绍滋教授共同合作完成。
