针对语言和视觉扰动的多模态鲁棒性分析
深度学习模型对现实世界分布变化的鲁棒性对于各种应用至关重要。例如,在视频中,分布变化可能包括照明、摄像机移动或数字压缩。在文本中,可能是拼写错误、不正确的同义词交换或偏见。
arXiv.org 最近的一篇论文对现有多模态深度学习模型的文本到视频检索的鲁棒性进行了大规模分析。
研究人员提供了两个基准数据集来进行此分析。它表明,仅对文本进行扰动时,与仅对视频进行扰动时相比,模型更加健壮。还表明,如果模型利用文本和视频之间的交叉注意,它们通常不那么健壮。此外,据观察,在更大的数据集上进行预训练可以提高性能和鲁棒性。然而,微调模型对基于性别的扰动不太稳健。
与单模态学习相比,大规模数据集上的联合视觉和语言建模最近显示出多模态任务的良好进展。然而,尚未研究这些方法对现实世界扰动的鲁棒性。在这项工作中,我们针对视频和语言的各种现实世界扰动对此类模型进行了首次广泛的鲁棒性研究。我们专注于文本到视频的检索,并提出了两个大型基准数据集 MSRVTT-P 和 YouCook2-P,它们利用了 90 种不同的视觉和 35 种不同的文本扰动。该研究揭示了一些有趣的发现:1)当文本被扰动时,所研究的模型比视频被扰动时更健壮 2)与词嵌入方法相比,transformer 文本编码器在非语义变化的文本扰动和视觉扰动上更健壮。3) 单独使用双分支编码器通常比架构使用交叉注意时更健壮。我们希望这项研究能够作为一个基准,并指导未来稳健的多模式学习的研究。