智能多媒体实验室

实验室一篇论文被ICCV 2025录用


标题:Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment

简介:尽管深度神经网络在视觉任务中取得突破性进展,但在面对恶意构造的对抗性噪声时仍表现出脆弱性。近年来,逆对抗训练(Inverse Adversarial Training)通过生成高置信度样本,引导模型聚焦于更稳定的分类边界,成为提升鲁棒性的有效策略。尽管该方法取得初步成效,我们首次揭示其存在系统性注意力偏移:模型倾向于关注背景区域并依赖非因果性上下文线索,形成显著的虚假相关性依赖。为此,我们提出 DHAT(Debiased High-Confidence Adversarial Training),从结构上矫正偏置信号。DHAT 包含两项关键机制:去偏高置信 logit 正则化(DHLR) 用于剔除背景激活引发的偏差信息,对齐对抗样本与去偏目标;前景 logit 正交增强(FLOE) 在仿射空间中弱化背景主导性,引导模型聚焦因果前景区域。实验证明,DHAT 在ImageNet-1K 等多个基准上显著提升鲁棒性与泛化能力。

该论文第一作者是厦门大学信息学院2023级硕士研究生张珂嘉,由翁娟娟助理教授、罗志明副教授、李绍滋教授共同合作完成。