实验室2篇论文被NeruIPS-24接收。NeruIPS-24会议是机器学习领域最重要的国际会议之一,每年举办一届。该会议将于2024年12月9日-15日在加拿大温哥华举行。
1. Cross-Modality Perturbation Synergy Attack for Person Re-identification
作者:龚云鹏,钟准,曲延松,罗志明,纪荣嵘,江敏
摘要:近年来,针对基于RGB图像的单模态行人重识别(ReID)系统的安全性问题,已有大量研究工作。然而,在实际应用中更为常见的涉及红外摄像头拍摄图像的跨模态场景的安全性却未得到充分关注。跨模态ReID的主要挑战在于有效处理不同模态之间的视觉差异。例如,红外图像通常为灰度图,而可见光图像则包含颜色信息。现有的攻击方法主要集中于可见光图像模态的特性,忽视了其他模态的特征以及不同模态之间的数据分布差异。这种忽视可能会削弱这些方法在多模态图像检索中的有效性。本研究首次探讨了跨模态ReID模型的安全性,并提出了一种专为跨模态ReID设计的通用扰动攻击。该攻击通过利用来自多模态数据的梯度优化扰动,从而破坏判别器并强化模态之间的差异。我们在两个广泛使用的跨模态数据集RegDB和SYSU上进行了实验,实验结果不仅证明了我们方法的有效性,还为未来增强跨模态ReID系统的鲁棒性提供了新的见解。
该论文的第一作者为2023级博士研究生龚云鹏,通讯作者为江敏教授。该研究成果是与诺丁汉大学钟准助理教授、厦门大学智能多媒体实验室罗志明副教授和厦门大学信息学院媒体分析与计算实验室(MAC)的博士研究生曲延松、纪荣嵘教授共同合作完成的。

2. Ask, Attend, Attack: An Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models
作者:曾清源、王贞众、张晓明、江敏
摘要:尽管图像到文本模型在各种视觉语言任务中取得了显著进展,但它们仍然容易受到对抗性攻击的影响。现有的白盒攻击对图像到文本模型需要访问目标模型的架构、梯度和参数,这导致实用性较低。尽管最近提出的灰盒攻击提高了实用性,但它们在训练过程中遭受语义损失,这限制了它们目标攻击的性能。为了推进图像到文本模型的对抗性攻击,本文关注一个具有挑战性的场景:基于决策的黑盒目标攻击,攻击者只有访问最终输出文本并旨在执行目标攻击。具体来说,我们将基于决策的黑盒目标攻击制定为一个大规模优化问题。为了有效解决优化问题,提出了一个三阶段过程Ask,Attend,Attack,称为AAA,以求解该优化问题。Ask指导攻击者创建满足特定语义的目标文本。Attend识别图像的关键区域以进行攻击,从而减少了后续Attack的搜索空间。Attack使用进化算法攻击关键区域,这些攻击在语义上与Ask的目标文本相关,从而在没有语义损失的情况下实现目标攻击。实验结果在基于Transformer和CNN+RNN的图像到文本模型上证实了我们提出的AAA的有效性。
该论文第一作者是2022级硕士研究生曾清源,通讯作者是江敏教授。该研究成果是与香港理工大学的博士研究生王贞众、香港浸会大学的张晓明教授共同合作完成的。
