什么是视觉语言 Visual Language ? 您所在的位置:网站首页 hw字母组词语 什么是视觉语言 Visual Language ?

什么是视觉语言 Visual Language ?

2023-04-20 13:46| 来源: 网络整理| 查看: 265

论文地址:https://arxiv.org/abs/2109.10504

作者:Yongfei Liu,Chenfei Wu,Shao-yen Tseng,Vasudev Lal,Xuming He, Nan Duan

数据集地址:https://cocodataset.org/

https://visualgenome.org/api/v0/api_home.html

Github地址:未开源

■ 导读

自监督的视觉语言预训练(VLP)旨在从大规模的图像文本数据中学习可迁移的多模态表示,并在微调后在广泛的视觉语言任务中实现强大的性能。先前的主流VLP方法通常采用依赖于外部目标检测器的两步策略来在多模态Transformer框架中对图像进行编码,这受到有限的目标空间、有限的图像上下文和低效的计算的困扰。在本文中,作者提出了一个object-aware的端到端VLP框架,它直接将来自CNNs的图像网格特征输入到Transformer中,并联合学习多模态表示。更重要的是,作者提出进行目标知识蒸馏,以帮助模型学习不同语义级别的跨模态对齐。为此,作者设计了两个新的任务:1 .) Object-guided masked vision modeling:该任务专注于在多模态Transformer中进行object-aware表示学习;2.) Phrase-region alignment:该任务旨在利用语义空间中名词短语和目标标签之间的相似性来改进跨模态对齐。作者通过在各种视觉语言任务上的大量实验证明了框架的有效性。

■ 方法1 问题定义和概述

自监督VLP的目标是从大量的图像-文本数据中学习通用的和可迁移的视觉-语言表示,能够在下游视觉-语言任务中展现出强大且通用的性能。为此,预训练框架通常会采用许多精心设计的跨模态预训练任务(例如MLM,ITM)来训练深度网络,用于对跨模态表示编码。作者将用于训练的图像-文本语料库表示为

总的预训练目标定义如下:

在本文中,作者的目标是为VLP问题设计一个端到端的预训练策略。为此,作者采用了一种模块化表示网络,能够从基于CNN的视觉网络中提取图像网格特征,并将相应的文本嵌入到多模态Transformer中。作者的目标是共同学习视觉网络和Transformer,并在多模态表示中有效地编码目标级别地视觉概念。这使得作者能够捕捉语言实体和视觉语义概念之间地跨模态对齐,同时在微调阶段不需要依赖外部检测器。

为了实现这一点,作者提出了一组跨模态的预训练任务,通过外部检测器在语义和特征空间进行目标知识蒸馏。具体来说,除了ITM和MLM任务,作者引入了两种新的预训练任务:Object-Guided Masked Vision Modeling (OMVM) 和 Phrase-Region Alignment (PRA),它们以来自外部检测器的目标RoI特征嵌入和语义标签作为监督。OMVM任务掩盖了目标区域,迫使网络预测相应的外部RoI特征嵌入和目标标签。PRA任务利用目标标签来对齐视觉目标和语言实体。

2模型框架

给定一个图像-文本对,模型首先分别计算图像嵌入和文本嵌入,然后用两个token [sep]和[cls]将它们连接成一系列的token,作为用于生成多模态上下文嵌入的Transformer的输入。

Visual Embedding:

Linguistic Embedding:

Multi-modal Transformer:

3预训练任务

作者首先介绍了将外部目标特征和语义标签作为监督的objects-aware预训练任务,之后介绍了传统的MLM和ITM任务,这里对传统预训练任务不多赘述。

Object-guided Masked Vision Modeling (OMVM):第一个任务旨在在端到端预训练中学习更明确的目标概念。具体来说,作者每次对一个目标进行采样,并在Transformer输入中掩盖掉它的特征,让网络生成外部目标RoI特征和语义标签。为了促进跨模态对齐,作者提出了一个知识导向的掩盖策略,即对名词短语相关的目标区域进行采样,基于相似性的得分掩盖。

作者设计了两个学习目标:Masked Region Classification (MRC) 和Masked Region Feature Regression(MRFR)。OMVM任务的损失函数由这两个目标的损失函数组成:

Phrase Region Alignment (PRA):第二个任务主要集中在学习目标级别的跨模态对齐,目的是拉近正短语-区域对,推远负短语-区域对。作者利用名词短语和目标类别在语义空间的相似性作为跨模态学习的导向。

■ 实验

和之前的工作一样,作者通过在一组完善的视觉语言理解任务上对方法进行微调来评估方法,任务包括图像文本检索、视觉蕴含(VE)、NLVR^2、VQA和VCR。在微调过程中,作者首先用预训练好的参数初始化视觉backbone和Transformer网络,然后为每个任务增加一个特定的可学习的头部。整个网络以端到端的方式随着下游特定任务的损失而微调。作者主要侧重与SOHO, Pixel-Bert, E2E-VLP和 ViLT进行性能比较,因为它们和作者提出的方法都是端到端的预训练方法。

上表展示了多个模型在多模态下游任务上的评估结果。Indomain表示MSCOCO和Visual Genome语料库,Outdomain表示Conceptual Caption和SBU语料库。AT是指在训练前和微调阶段都使用对抗性训练。蓝色的数字表示带有附加文本前提输入的实验。

上表表示在MSCOCO数据集上图像检索(IR)和文本检索(TR)任务的评估和在VCR任务上的性能。

上表表示提出的多种预训练任务的消融实验结果。与baseline相比,OMVM在所有下游任务上呈现出明显一致的改进,这表明OMVM可以通过明确的目标概念学习来增强端到端的多模态表示。从表中可以看出,PRA显著提高了MSCOCO-TR的0.78% R@1和MSCOCO-IR的1.87% R@1。此外,对于更具挑战性的细粒度推理任务,如VE、NLVR2和VQA,PRA显示了轻微的改进。结果表明PRA有利于多模态表征学习。

(a)展示了不同的掩蔽视觉策略的比较,其中第一行表示SOHO中的随机掩蔽策略,第二行表示作者提出的知识引导掩蔽策略。红色区域代表被掩盖的区域。(b)展示了一个从单词到图像的注意图的比较。明亮区域表示单词和视觉token之间的注意力得分较高。

■ 结论

作者提出了一种新的自监督VLP方法,促进在端到端框架中学习object-aware的多模态表示。作者的关键思想是在预训练阶段在语义和特征空间中进行目标知识蒸馏。作者设计了一个目标引导的掩蔽视觉建模任务来提取外部目标知识,还设计了一个短语-区域对齐任务以学习更好的语言实体和视觉概念对齐方式。与以往的工作相比,该方法不需要在下游任务的模型微调和测试中依赖复杂的目标检测器就可以取得不错的效果。

■ 参考文献

[1]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.;Gould, S.; and Zhang, L. 2018. Bottom-up and top-down attention for image captioning and visual question http://answering.In CVPR2018.[2]Antol, S.; Agrawal, A.; Lu, J.; Mitchell, M.; Batra, D.; Zitnick, C. L.; and Parikh, D. 2015. Vqa: Visual question answering. In CVPR2015.[3]Bowman, S. R.; Angeli, G.; Potts, C.; and Manning, C. D.2015. A large annotated corpus for learning natural language inference. arXiv preprint arXiv:1508.05326.[4]Carion, N.; Massa, F.; Synnaeve, G.; Usunier, N.; Kirillov,A.; and Zagoruyko, S. 2020. End-to-end object detectionwith transformers. In ECCV2020, 213–229.[5]Chen, Y.-C.; Li, L.; Yu, L.; El Kholy, A.; Ahmed, F.; Gan,Z.; Cheng, Y.; and Liu, J. 2020. Uniter: Learning universal image-text representations.[6]Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2018.Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.[7]Gan, Z.; Chen, Y.-C.; Li, L.; Zhu, C.; Cheng, Y.; and Liu,J. 2020. Large-scale adversarial training for vision-and-language representation learning. NeuIPS2020.[8]He, K.; Zhang, X.; Ren, S.; and Sun, J. 2016. Deep Residual Learning for Image Recognition. In CVPR2016.[9]Huang, Z.; Zeng, Z.; Huang, Y.; Liu, B.; Fu, D.; and Fu, J.2021. Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning. CVPR2021.[10]Huang, Z.; Zeng, Z.; Liu, B.; Fu, D.; and Fu, J. 2020. Pixel-bert: Aligning image pixels with text by deep multi-modal transformers. arXiv preprint arXiv:2004.00849.



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有