智能多媒体实验室

实验室5篇论文被AAAI 2026接受录用


实验室5篇学术论文被AAAI-26录用。AAAI 2026会议将于2026年1月20日至27日在新加坡举行。5篇录用论文的简要介绍如下:

1. Fading the Digital Ink: A Universal Black-Box Attack Framework for 3DGS Watermarking Systems

作者:曾清源、蒋庶、林佳靖、王贞众、Kay Chen Tan、江敏

摘要:3D高斯溅射作为一种新兴的3D场景表示和重建技术,凭借其高保真度和实时渲染能力,在电影、游戏、虚拟现实等领域展现了广阔的应用前景。随着3DGS模型的广泛应用,其版权保护问题日益凸显,多种数字水印技术被提出用于嵌入版权信息。然而,这些水印技术的鲁棒性(即抵抗潜在攻击的能力)尚未得到充分的研究。针对这一研究空白,该论文首次提出了一个通用的3DGS水印黑盒攻击框架GMEA(Group-based Multi-objective Evolutionary Attack)。该框架将攻击过程构建为一个大规模多目标优化问题,旨在同时实现两个相互冲突的目标:最大化水印去除效果与最小化视觉质量损失。在黑盒设置下(即攻击者对水印内容、嵌入和检测过程一无所知),GMEA创新性地设计了一个间接目标函数:通过最小化卷积网络提取特征的标准差,使特征图变得“平坦”且不具信息量,从而“致盲”下游的水印检测器。此外,为解决3DGS模型(通常包含数百万个高斯核)带来的巨大搜索空间,GMEA采用了一种基于分组的优化策略,利用聚类算法将模型划分为多个独立的子优化问题,显著提高了攻击效率。大量的实验结果表明,GMEA框架不仅能有效去除当前主流的一维和二维3DGS水印,同时能在攻击后保持极高的模型视觉保真度。该研究不仅揭示了现有3DGS版权保护方案中存在的关键漏洞,也为未来开发更安全、更鲁棒的水印系统提供了重要的基准和研究方向。

该论文第一作者是2022级硕士研究生曾清源,通讯作者是江敏教授。并由蒋庶、林佳靖、王贞众助理教授、Kay Chen Tan教授(香港理工大学)共同完成。

2. A Theory-Inspired Framework for Few-Shot Cross-Modal Sketch Person Re-Identification

作者:龚云鹏、侯永杰、施江鸣、叶金龙、江敏

摘要:素描行人重识别旨在将手绘草图与 RGB 图像进行匹配,但由于模态差异显著且标注数据稀缺,该任务仍面临巨大挑战。为此,本文提出KTCAA,一个理论启发的、适用于小样本跨模态迁移学习的框架。从泛化误差上界的角度出发,我们识别出影响目标域误差的两个关键可控因素:(1)域差异性,即源域与目标域在特征空间中的分布对齐难度;(2)扰动不变性,即模型对跨模态变化的鲁棒性。针对上述挑战,本文设计了两个相应的模块:(1)对齐增强模块,通过对 RGB 图像进行局部草图风格变换,引入细微但有意义的特征扰动,从而引导模型逐步对齐不同模态的分布;(2)知识迁移催化器,通过生成最坏情况下的模态扰动,并强制保持特征输出一致性,以提升模型的扰动鲁棒性。上述两个模块在元学习框架下联合优化,使得模型能够有效地将RGB数据集中丰富的知识迁移到素描场景。多项基准测试结果表明,KTCAA 在数据有限和跨模态迁移条件下均实现了领先的识别性能和出色的泛化能力。

该论文第一作者是2023级博士研究生龚云鹏,通讯作者是江敏教授。并由侯永杰(电子科学与技术学院)、施江鸣(人工智能研究院)、叶金龙共同完成。

3. Cross-Field Interface-Aware Neural Operators for Multiphase Flow Simulation

作者:王贞众、张昕、廖军、江敏

摘要:多相流系统由于其复杂的动态行为、场的不连续性以及相间相互作用,对传统数值求解器提出了巨大的计算挑战。尽管神经算子为这类问题提供了高效的替代方案,但在这些系统中往往难以实现高分辨率的数值精度。这一局限主要源于多相流固有的空间非均匀性以及高质量训练数据的稀缺。在本研究中,我们提出了一种新的框架——界面信息感知神经算子(Interface Information-Aware Neural Operator,简称 IANO),该框架通过显式引入界面信息作为物理先验来提升预测精度。IANO 架构包含两个关键组件:(1)界面感知的多函数编码机制:该机制联合建模多个物理场与界面信息,从而捕捉界面处的高频物理特征。(2)几何感知的位置编码机制:该机制进一步建立界面信息、物理变量与空间位置之间的关系,使模型即便在低数据场景下也能实现逐点的超分辨率预测。实验结果表明,IANO 在多相流模拟中相较于基线模型在精度上提升了约 10%,并在数据稀缺和噪声扰动条件下保持了良好的鲁棒性。

该论文的共同第一作者是王贞众助理教授和2025级硕士生张昕,通讯作者是江敏教授,由2022级本科生廖军共同合作完成。

4. PEGNet: A Physics-Embedded Graph Network for Long-Term Stable Multiphysics Simulation

作者:杨灿、王贞众、刘俊源、龚云鹏、江敏

摘要:对受偏微分方程(PDE)支配的物理现象进行准确且高效的模拟,是科学与工程领域的重要基础性问题之一。传统的数值求解器虽然功能强大,但计算代价往往十分高昂。近年来,数据驱动方法逐渐成为替代方案,但它们常常面临误差累积与物理一致性不足的问题,尤其是在多物理场耦合与复杂几何结构场景下表现欠佳。为应对这些挑战,我们提出了 PEGNet(Physics-Embedded Graph Network),一种物理嵌入式图神经网络,通过PDE引导的消息传递机制(PDE-Guided Message Passing)重新设计了图神经网络的结构。该模型将对流、粘性、扩散等关键的PDE动力学过程分别嵌入到独立的消息函数中,使得物理约束能够自然地融入网络的前向传播,从而生成更稳定且物理一致性更强的预测结果。此外,PEGNet采用了层次化架构以捕捉多尺度特征,并在损失函数中引入了物理正则项,以进一步强化对控制方程的遵循。我们在多个基准测试上评估了PEGNet的性能,包括针对呼吸气流与药物输送的自建数据集。实验结果表明,PEGNet在长期预测精度与物理一致性方面均显著优于现有方法。

该论文第一作者是2025级硕士研究生杨灿,通讯作者是江敏教授。并由王贞众助理教授、刘俊源、龚云鹏共同完成。

5. OneFont: A Unified Agent for End-to-End Font Creation

作者:赖映鑫、刘宇菲、杨国庆、柴家星、罗志明、李绍滋

摘要:尽管最近在字体生成方面取得了进步,但从业者仍然在艰难的试错工作流程中挣扎。为了简化这一点,我们提出了OneFont,这是一个端到端的框架,通过自由形式的对话来解释用户的意图,无缝地集成了字形合成和细化模块。我们介绍了带有思想的字体(FwT)范式重构字体设计作为推理任务其中的模型 计划行动并阐明设计原理。OneFont通过两个阶段的训练来掌握 这个范例。首先,我们通过监督微调(SFT)在我们建立的1500个字体家族的新的综合基准上灌输推理能力。第二,我们提炼采用一种新的强化学习算法GRPO来指导模型的策略 通过评估视觉保真度、基本原理一致性和转换正确性的混合奖励。大量的实验表明,OneFont明显优于现有的方法,在不同字体的设计质量和笔画精度方面,

该论文第一作者是2022级博士研究生赖映鑫,通讯作者是罗志明副教授。并由刘宇菲、杨国庆、柴家星、李绍滋教授共同完成。