首页 >> 速递 > 科技速递 >
针对语言和视觉扰动的多模态鲁棒性分析
深度学习模型对现实世界分布变化的鲁棒性对于各种应用至关重要。例如,在视频中,分布变化可能包括照明、摄像机移动或数字压缩。在文本中,可能是拼写错误、不正确的同义词交换或偏见。
arXiv.org 最近的一篇论文对现有多模态深度学习模型的文本到视频检索的鲁棒性进行了大规模分析。
研究人员提供了两个基准数据集来进行此分析。它表明,仅对文本进行扰动时,与仅对视频进行扰动时相比,模型更加健壮。还表明,如果模型利用文本和视频之间的交叉注意,它们通常不那么健壮。此外,据观察,在更大的数据集上进行预训练可以提高性能和鲁棒性。然而,微调模型对基于性别的扰动不太稳健。
与单模态学习相比,大规模数据集上的联合视觉和语言建模最近显示出多模态任务的良好进展。然而,尚未研究这些方法对现实世界扰动的鲁棒性。在这项工作中,我们针对视频和语言的各种现实世界扰动对此类模型进行了首次广泛的鲁棒性研究。我们专注于文本到视频的检索,并提出了两个大型基准数据集 MSRVTT-P 和 YouCook2-P,它们利用了 90 种不同的视觉和 35 种不同的文本扰动。该研究揭示了一些有趣的发现:1)当文本被扰动时,所研究的模型比视频被扰动时更健壮 2)与词嵌入方法相比,transformer 文本编码器在非语义变化的文本扰动和视觉扰动上更健壮。3) 单独使用双分支编码器通常比架构使用交叉注意时更健壮。我们希望这项研究能够作为一个基准,并指导未来稳健的多模式学习的研究。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
分享:
相关阅读
最新文章
-
【如何练单手引体向上】单手引体向上是一项极具挑战性的上肢力量训练动作,对核心稳定性、肩部控制力和背部肌...浏览全文>>
-
【如何练唱歌】唱歌是一项可以通过科学训练和持续练习不断提升的技能。无论你是初学者还是有一定基础的爱好者...浏览全文>>
-
【如何联系支付宝人工客服电话】在使用支付宝过程中,用户可能会遇到各种问题,如账户异常、支付失败、退款纠...浏览全文>>
-
【如何联系微信客服解冻微信帐号】当你的微信账号因异常登录、多次密码错误或违反平台规则被冻结时,及时联系...浏览全文>>
-
【如何联系天猫超市的客服】在使用天猫超市购物过程中,如果遇到商品问题、订单异常或售后服务需求,及时与客...浏览全文>>
-
【如何联系顺风快递员上门取件】在日常生活中,很多人会通过顺风快递寄送包裹。如果需要快递员上门取件,了解...浏览全文>>
-
【如何联系顺丰快递上门取件】在日常生活中,很多人会通过顺丰快递寄送或接收包裹。如果需要顺丰快递上门取件...浏览全文>>
-
【如何联系快手客服】在使用快手的过程中,用户可能会遇到账号问题、内容审核、举报反馈、支付纠纷等各类问题...浏览全文>>
-
【如何考取钳工证书】钳工是一项传统而重要的技术工种,广泛应用于机械制造、维修和装配等领域。想要成为一名...浏览全文>>
-
【如何考取明星经纪人资格证书】在娱乐圈中,明星经纪人扮演着至关重要的角色。他们不仅是艺人的“幕后推手”...浏览全文>>
大家爱看
频道推荐