浅读多模态学习综述 您所在的位置:网站首页 模态传递函数是什么意思呀 浅读多模态学习综述

浅读多模态学习综述

2024-07-18 07:50| 来源: 网络整理| 查看: 265

1.2多模态表示

多模态表示是指将多个模态数据信息融合到一个共享的语义空间中的向量表示。一个良好的多模态表示应具备平滑性、时间和空间的一致性、稀疏性和自然聚类等特性。此外,良好的多模态表示应满足以下额外的理想特性:不同多模态输入对应的多模态表示的相似性应反映出各输入包含信息的相似性;即使某些模态数据缺失,仍然能够生成有效的多模态表示;通过多模态表示可以获取各模态数据的信息。

多模态表示可以建立在单模态表示的基础上,最简单常见的方法是将各模态的表示串联起来。随着多模态研究的发展,获得多模态表示的方法也得到了快速发展。研究者将多模态表示分为联合表示和协调表示。基于多模态深度表示中各模态之间的相互作用和获得的表示的语义信息,多模态表示可进一步分为模态共作用语义表示和模态约束语义表示。模态共作用语义表示类似于联合表示,它融合各个单模态的特征表示,以获得包含各模态语义信息的多模态表示。而模态约束语义表示与协调表示不同,它通过使用一个模态的单模态表示来约束其他模态的表示,使得其他模态的表示能够包含该模态的语义信息。

以数学语言解释,模态共作用语义表示可以表示为 Xm = f(X1, ..., Xn),其中Xm表示模态共作用语义表示,X1, ..., Xn表示各模态的表示,f表示通过神经网络模型构建的非线性映射。而模态约束语义表示可以表示为 f(WX1),其中W是通过训练学习得到的将X1映射到表示X2所在空间的映射矩阵。

1.2.1模态共作用语义表示

在深度学习中,神经网络已经取得了显著的成果,尤其在获取自然语言、视觉和听觉等单模态表示方面。在单模态表示的基础上,构建更深层的神经网络是获取模态共作用语义表示的常见方法。通常的做法是分别使用适当的神经网络学习各模态数据的表示,然后在网络结构上构建深层的神经网络,其输入为各模态的表示,通过这个构建的神经网络来融合各模态的语义信息,从而获得模态共作用语义表示。

在前向神经网络中,最典型的结构是编码器-解码器结构。编码器用于压缩和融合各模态的表示,生成模态共作用语义表示,而解码器根据这个共作用语义表示产生学习任务的预测结果。在深层的编码器-解码器结构中,各模态表示的神经网络通常是经过预训练得到的,而编码器-解码器结构的参数通过端到端的训练来生成,以获得更好的多模态表示性能。另一种简单的编码器是级联网络层,它将各模态的向量表示级联起来生成共作用语义表示,这是最基本的共作用语义表示生成方式。

另外,递归神经网络在生成共作用语义表示方面也常被使用,尤其适用于时间相关的学习任务,如视听语音识别和视听情感分析。在上层递归神经网络中,递归神经单元的隐状态融合了时间信息和各模态输入信息,形成共作用语义表示。改进的方法包括在底层网络的输出层添加LSTM,使得底层网络获得的单模态表示融合了各模态的时间信息。

在训练共作用语义表示模型时,可以对生成单模态表示的神经网络进行预训练或微调经典的网络结构。整个网络通常采用端到端的训练方式,这使得模型的预测结果能够反映生成的共作用语义表示是否能够充分包含各模态输入的信息。尽管共作用语义表示的训练过程相对简单且能够利用各输入包含的语义信息,甚至时间信息,但也存在训练参数过多等缺点。

1.2.2模态约束语义表示

模态约束语义表示与共作用语义表示不同,它的目标是将输入模态的表示映射到目标模态的语义空间中,以使映射结果与目标模态的语义相似性更高。模态约束语义表示并不融合各模态的信息用于预测等任务,而是通过在目标函数中添加衡量输入模态与目标模态相似性的约束条件,并使用端到端的训练方式来学习模型的参数和输入模态到目标模态表示空间的映射矩阵。

模态约束语义表示的思路简单且应用广泛,在不同的学习任务下,只需要确定输入模态和目标模态的形式,并选择适合的网络结构,在损失函数中添加目标模态对输入模态的约束项,就可以得到包含目标模态语义信息的输入模态约束语义表示。在图像识别问题中,可以将图像表示映射到名词空间,并使用铰链损失来约束模态约束语义表示的相似性,例如,要求包含车的图像的约束语义表示与名词"车"的损失值小于该图像与"马"的损失值。在图像标注问题中,可以使用LSTM学习句子的表示,并将图像的投影空间扩展到语句空间,使得图像在语义空间中的投影与标注语句的表示相似性最大。在跨媒体检索中,为了提高检索效率,可以构建文本语义空间而非语句空间,从而实现视频检索。

模态约束语义表示弱化了信息融合的必要性,采用模态间约束的方式来实现模态间的信息交流。它通常作为编码器出现在模型中,其输出可以由解码器生成学习任务的预测结果。在编码器完成训练后,它可以对训练数据中未出现的数据类型进行编码,并投影到目标模态的语义空间中。解码器也可以对该投影结果进行处理,并生成训练数据中未出现的预测结果。然而,寻找和探索适合的包含约束的目标函数是具有一定难度的,需要研究者结合各模态的特性和实验经验进行构建。模态共作用语义表示和模态约束语义表示如图示所示。

 二、模态传译

模态传译是指将一个模态中包含的信息传递和存储到另一个模态中,实现不同模态之间信息的流通和转化。主要研究方向涉及图片和语句、语句和声音、语言和语言等两个模态之间的传译。模态传译一直是研究者长期以来致力于解决的问题,许多多模态深度学习方法都涉及模态传译。为了精确实现模态传译,模型必须能够很好地理解源模态和目标模态的结构和信息。随着计算机视觉、自然语言处理和多模态数据集的发展,对于自然语言、图像、视频、声音等模态的理解程度不断提高,模态传译也受到越来越多的关注,并在各种研究任务中取得了进一步的发展。

根据传译结果的可预测性,模态传译可以分为有界传译和开放性传译,并对它们进行详细论述。有界传译主要涉及信息检索、图像识别和语音合成等问题,例如跨媒体检索、人脸识别和机器阅读等。在有界传译中,只需要在目标模态中找到与源模态元素对应的元素。例如,在模态传译的概念下,图像识别可以理解为将一张包含鸟的图像翻译成文字"鸟"。而开放性传译研究中,目标模态通常是句子,涉及机器翻译、图像标注语句生成和声音识别等任务。

在模态传译中,仍然存在着一些具有挑战性的问题,如传译结果评价机制的主观性、源模态信号中的信号重复问题,以及模态元素之间的多对一和一对多的关系等。图示中的有界传译和模态传译示意图展示了模态传译的概念,其中每个方块代表一个元素。

2.1有界传译 

有界传译是指将源模态中的一个元素或多个元素传译为目标模态集合中的某个元素或多个元素,目标元素之间没有前后序列关系。跨媒体检索和语音生成是有界传译的典型问题。

在跨媒体检索中,通过在多模态数据库中根据给定的查询模态类型来检索目标模态中包含查询信息的元素。多模态深度学习方法实现跨媒体检索的主要方式是学习查询模态元素和目标模态元素的表示,并使用神经网络或相似性评价函数来学习它们之间的相似性,从而实现检索。例如,通过构建通信自编码器,可以提升跨媒体检索的性能。为了改进跨媒体检索,研究人员在改进模态表示和更新相似性评价机制方面进行了新的研究。

语音生成涉及将模型学习到的输入模态信息转换为声音输出。其中,文字生成语音和图像生成声音是常见的研究方向。在文字生成语音中,通常使用堆叠的双向LSTM来处理文本特征向量,生成包含声音特征参数的平滑变化轨迹,并经过声码器转换为声音输出。在语音生成的研究中,也有一些方法利用递归神经网络作为传统文本语音生成模型的后置补偿器,以增强模型性能。另外,图像生成声音方面的研究利用卷积神经网络提取视频图像帧的图像信息,并使用长短记忆神经网络来拟合视频图像帧的连续运动信息,从而合成视频中物体运动的声音。

在模态传译中,仍然存在一些挑战性问题,如传译结果评价的主观性、源模态信号中的重复信息以及模态元素之间的多对一和一对多关系等。

2.2开放性传译

开放性传译是指将源模态中的信息传译为目标模态集合中的多个元素组成的有前后顺序关系的序列。在开放性传译的研究中,目标模态常为语句模态,涉及机器翻译、图像标注、图像问答、声音识别等任务。下面对其中几个典型问题进行简要介绍。

机器翻译是将一种语言中的句子翻译为另一种语言中的句子。递归神经网络是实现语句翻译的有效模型,通过构建编码器-解码器结构,利用双向LSTM对输入句子进行编码和解码,学习句子之间的对应关系。注意力机制的引入进一步改进了机器翻译的性能,通过编码器-解码器之间的注意力机制,可以实现更好的上下文理解和翻译结果生成。

图像标注是将图像转化为描述图像内容的语句。研究者提出了各种神经网络结构来推进图像标注任务的发展,如使用卷积神经网络提取图像特征,然后使用LSTM来生成描述语句。近期的研究还考虑了图像问答任务,即给定一个问题和一张图像,生成回答语句。这些任务的研究促进了对图像和语句之间关联的理解。

声音识别是将语音模态转换为语句模态,通常包括声学模型、语言模型和解码过程。传统的声音识别过程涉及解码问题,将输入的语音特征序列转换为字符序列。近期的研究采用编码器-解码器模型来实现声音识别,通过共同学习编码和解码过程,实现模态传译。

在模态传译的过程中,常常与解决特定学习任务的过程同步进行,模态传译可以看作是涉及模态间信息交流的机器学习任务的抽象概括。通过对有界传译和开放性传译的讨论,可以了解不同学习任务中常用的神经网络结构,并展示深度学习在模态传译方面的发展。

三、模态融合

多模态融合是指综合来自不同模态的信息以进行预测的过程。单个模态往往无法提供足够的有效信息来产生准确的预测结果,因此通过多模态融合可以补充信息、拓宽信息覆盖范围,提高预测结果的精度和模型的鲁棒性。根据多模态融合与各模态建模的先后关系,可以分为前融合、后融合和混合融合。

前融合是在模态建模之前,通过集成或组合来自所有模态的特征来完成特征层面的融合。这种方法将不同模态的特征进行组合,形成一个综合的特征表示,然后再将该综合特征输入到模型进行训练和预测。

后融合是分别对每种模态进行建模,然后将模型的输出或决策进行综合,以产生最终的决策结果。在后融合方法中,每个模态都有自己的模型进行训练和预测,最后将它们的输出进行综合,得到最终的预测结果。

混合融合是在特征级别和决策级别进行融合,综合了前融合和后融合的方法。在混合融合中,可以在特征层面对不同模态的特征进行融合,然后将融合后的特征输入到各自的模型中进行建模和预测;同时,也可以在决策层面将各个模态的预测结果进行综合。

在多模态深度学习中,神经网络结构可以直观地反映模态融合的方式。不同的多模态任务如视听语音识别、图像问答、视觉对话、手势识别、情感分析以及视频识别和描述等都可以利用多模态融合的方法来提升任务的性能。

总之,多模态融合通过综合不同模态的信息来增强预测的能力,根据不同的应用场景和任务需求,可以选择适合的前融合、后融合或混合融合策略,以实现更好的预测效果。

3.1前融合 

在前融合的实现过程中,首先需要提取各个输入模态的特征。这可以通过不同模态数据的特定方法进行,例如,对图像进行卷积神经网络处理,对文本进行词嵌入表示,对声音进行声谱图提取等。提取的特征通常会在维度上具有较高的维度。

接下来,将提取的特征合并到一个特征集合中。这个特征集合是由各个模态的特征组成的,并作为输入数据输入到一个模型中进行训练和预测。这个模型可以是任意的机器学习模型,例如神经网络、支持向量机等,用于学习模态之间的关系和进行预测。

前融合的特征集成和模态共作用语义表示之间的区别往往模糊不清。实际上,模态共作用语义表示也可以被视为前融合特征集成的结果。因此,前融合中模态表示的融合方式多种多样。常见的方式包括对各模态表示进行相同位置元素的相乘或相加、构建编码器-解码器结构以及使用LSTM神经网络进行信息整合。

例如,在情绪识别任务中,可以使用双峰自编码神经网络对提取的脑电图和眼睛信号进行特征集成和重构,然后将集成特征输入支持向量机进行情绪分类识别。在图像问答任务中,可以对卷积神经网络和LSTM神经网络学习到的图像和问题的向量表示进行对应元素的相乘。在视频描述任务中,可以在卷积神经网络上叠加LSTM神经网络,实现对视频中时间和空间信息的融合。

总的来说,前融合是一种简单的融合方式,通过将不同模态的特征进行合并,然后输入到一个模型中进行预测。它具有较低的计算复杂性,常常用作多模态学习任务的基准,并且可以通过不同的特征集成和模态共作用语义表示方式来实现模态的融合。

3.2后融合

在后融合的过程中,首先需要提取各个模态的特征。与前融合类似,可以使用不同的方法对每个模态的数据进行处理,提取相应的特征表示,例如对图像进行卷积神经网络处理,对文本进行词嵌入表示,对声音进行声谱图提取等。

然后,将提取的特征输入到对应的模型中进行训练和预测。每个模型都会根据输入的特征产生一个预测结果。这些预测结果可以是概率值、类别标签或连续值,具体取决于预测任务的性质。

最后,整合各个模型的预测结果,形成最终的预测结果。常见的整合方式包括平均、投票、加权和模型选择。例如,可以对各个模型的预测结果进行平均,取平均值作为最终预测结果。或者可以使用投票方式,选择获得最多票数的预测结果作为最终结果。另外,可以基于信道噪声和信号方差对预测结果进行加权,考虑模型的可靠性和置信度。还可以使用一些模型选择方法,如AdaBoost和神经网络,根据各个模型的性能和表现选择最佳的预测结果。

在视频识别和视频描述任务中,后融合过程也需要考虑视频的时间信息和空间信息的融合。例如,在视频识别任务中,可以将视频的时间信息和空间信息分别输入到全连接层,然后通过平均和支持向量机等方法对全连接层的结果进行融合,从而获得视频的最终预测结果。在视频描述任务中,可以使用LSTM神经网络融合卷积神经网络提取的与视频相关的单词信息,生成视频的描述语句。

总的来说,后融合是一种将各个模态的特征提取和模型预测分开进行的方法。它能够较好地处理数据的异步性,可以根据需要灵活地添加或删除模态。然而,后融合也存在一些缺点,如未考虑特征层面的模态相关性和实现的难度较高。因此,在选择融合方式时需要根据具体任务和数据特点进行权衡和选择。

3.3混合融合

混合融合是一种将前融合和后融合相结合的方法,综合了它们各自的优点,但也增加了模型的结构复杂度和训练难度。

在混合融合的研究中,神经网络得到了广泛应用,因为神经网络具有多样性和灵活性。下面介绍一些在不同任务中应用混合融合的方法。

在视频和声音信号的混合融合中,Wu等人构建了仅基于视频信号和仅基于声音信号的听声辨人模型,分别产生模型的预测结果。然后,通过加权的方式将视频和声音模态的预测结果进行整合,从而获得最终的识别结果。

在图像问答任务中,研究者使用递归神经网络和卷积神经网络分别学习问题语句和图像的信息。然后,通过注意力机制实现问题语句信息和图像信息的融合,将注意力权重应用于特征表示中,以强调对问题和图像有关的重要信息。

在手势识别任务中,Neverova等人使用卷积神经网络对手势视频中左手和右手的时间信息和空间信息进行学习和融合。他们还使用并行的卷积神经网络提取身体姿势的图像信息和声音信息。最后,他们使用全连接神经网络将所有信息进行融合,并在输出层生成手势识别结果。

这些方法都是通过混合融合的方式将不同模态的信息整合到一个模型中,以提高预测的精度和性能。然而,混合融合也面临一些挑战,如模型结构复杂度和训练难度的增加,以及模态之间的关联性建模等问题。因此,在应用混合融合时需要根据具体任务和数据特点进行合理的选择和权衡。

四、模态对齐

多模态对齐是指辨别不同模态元素之间的关系。在多模态深度学习中,可以使用注意力对齐和语义对齐来实现模态对齐。

注意力对齐综合考虑输入模态中各元素与目标模态中某个元素之间的关系。例如,在机器翻译任务中,注意力机制可以将源语言句子中的每个单词与目标语言句子中的对应单词进行对齐,从而捕捉到它们之间的关联性。在图像标注任务中,注意力机制可以将图像中的不同区域与标注语句中相应的单词或短语进行对齐。

语义对齐则是根据输入模态和目标模态中元素之间的语义相似性来进行对齐。一种常见的做法是构建语义对齐数据集,在这个数据集上训练模型,使得模型能够自然地学会模态之间的语义对应关系。通过语义对齐,可以捕捉到模态元素之间的语义关联,实现模态对齐。

注意力对齐和语义对齐这两种方式在模态对齐中都取得了较好的效果。注意力对齐更加灵活,能够考虑模态元素之间的长期依赖关系,适用于处理具有长距离依赖的任务。而语义对齐则更加注重模态元素的语义相似性,通过构建语义对齐数据集进行训练,使模型能够学习到模态元素之间的语义对应关系。

多模态对齐的目的是为了实现模态之间的有效信息传递和融合,从而提高多模态任务的性能和效果。不同的任务和应用领域可能会选择不同的对齐方式来适应特定的需求。

4.1注意力对齐

在一个深度学习模型中应用注意力对齐,其主要功能是学习输出中某个元素与输入中各元素的对齐概率。注意力对齐在多模态学习任务中被广泛应用,例如机器翻译、图像标注、语音识别等需要进行模态之间的翻译和对齐的任务中,并且在这些领域取得了良好的表现。在深度学习模型中引入注意力机制常常能提升模型的性能。

以机器翻译中的软注意力模型为例,说明注意力模型的构造过程。在软注意力模型中,采用了解码器-编码器结构来实现注意力对齐和机器翻译。编码器阶段使用BRNN(双向循环神经网络)对输入语句中的单词进行语义特征提取,得到隐变量集合h={hj}。在解码器端,通过RNN和多层神经网络来求解每个时刻i输出单词yi的条件后验概率的模型参数。引入注意力机制建立注意力对齐模型,该模型由一个由两层神经元构成的神经网络构建,输出表示为ei= a(si-1, hj) = vT tanh(Wasi-1 + Uahj),其中va、Wa和Ua为权值矩阵。注意力对齐模型能够计算输入语句中每个单词的表示与输出语句中对应的预测目标单词的相关性强弱的能量值ei,并通过软最大函数计算得到对齐权值aij。利用注意力模型产生的权值和编码器产生的隐变量集合,可以计算解码器各输出时刻单词的上下文向量ci和条件后验概率。在这个软注意力模型中,每个单词都以对应的概率对输出单词进行对齐,实现了模态之间的对齐。

除了软注意力模型,还有硬注意力模型。硬注意力模型常用于图片文字标注中,它会选取某个向量与目标句子对应的单词对齐,而其他向量与目标句子单词对齐的概率则硬性地置零。在注意力模型的发展过程中,还涌现出了全局注意力模型、局部注意力模型、静态注意力模型和动态注意力模型等不同类型的模型。

总的来说,注意力对齐在深度学习模型中起到了重要的作用,能够帮助模型学习输入与输出之间的对齐关系,从而提高多模态任务的性能。注意力模型的构造过程较为复杂,但它为多模态学习任务提供了一种有效的方式来处理模态之间的对齐问题。

4.2语义对齐

语义对齐是一种直接赋予模型对齐能力的对齐方式,其主要实现方式是通过处理带有标签的数据集并生成语义对齐数据集,然后使用深度学习模型来学习语义对齐数据集中的对齐信息。在视觉模态和语句模态对齐方面,随着带有对齐标签的视觉和语句模态数据集规模的迅速增加,基于深度学习的有监督语义对齐算法取得了重要进展。

在图像标注任务中,Karpathy等人提出了一种神经网络模型(如图8所示),通过包含语义信息的目标函数来训练数据集,并利用训练好的神经网络和新构建的链式结构的马尔可夫随机场动态地最小化能量函数,寻找最佳的图像和语句或单词对之间的语义对齐关系,并构建语义对齐的数据集。这个过程中,首先使用RCNN(区域卷积神经网络)对图像进行区域划分,选取最佳的19个局部区域和整个图像(共20个图像),然后使用CNN对这20个图像分别进行处理,得到图像特征表示;同时,使用BRNN(双向循环神经网络)对描述语句中的单词进行语义特征提取,其维度与图像表示的维度相同。通过计算每个图像区域和每个单词之间的对齐分数,从中选择每个单词关于各图像区域的最大对齐分数和每个图像区域关于各单词的最大对齐分数,进而构造目标函数来训练CNN和BRNN模型。然后,沿着图像标注句子构建一个链式结构的马尔可夫随机场,并最小化能量函数,输出对齐的图像区域和语句片段,并将其存储在数据集中。

除此之外,研究者还尝试了其他视觉模态和语句模态对齐的方法。例如,Zhu等人通过训练卷积神经网络来评估电影场景和剧本段落的相似性;Mao等人使用卷积神经网络视觉模型和LSTM(长短期记忆网络)语言模型来评估图像中实例和其指称表达之间的匹配程度;Yu等人在此基础上进一步添加图像实例的外形信息和指称表达所包含的上下文信息,以减少误差评估。

总的来说,语义对齐是一种能直接赋予模型对齐能力的方式,通过处理带有标签的数据集并利用深度学习模型来学习语义对齐数据集中的对齐信息。目前,注意力对齐和语义对齐是两种常见的对齐方式。在结构上,注意力对齐模型相对简单且形式灵活;在训练过程中,注意力对齐模型的超参数和模型参数相对较少,训练难度较低;在预测结果方面,注意力对齐能够更好地考虑模态元素之间的长期依赖关系。而语义对齐能够产生语义对齐数据集,并具有直观的评估结果。在实际应用中,由于注意力对齐具有诸多优势和良好的性能表现,它更频繁地被应用于各种学习任务中。

五、实际多模态系统

多模态深度学习在语音识别和生成、图像识别、事件监测、情感分析和跨媒体检索等方面都有广泛的应用。它能够赋予机器理解和融合图像、语言、文字、视频等模态所包含信息的能力,具有巨大的商业价值。因此,许多商业公司都在进行多模态深度学习相关的产品开发,使得多模态深度学习走进了实际生活。

谷歌公司是全球最大的搜索引擎公司,同时也引领着人工智能的发展。其旗下的DeepMind是人工智能领域的明星之一。谷歌开发了WaveNet,一种新型的深度神经网络,能够根据文本生成更好、更逼真的语音。改进版的WaveNet已经应用在谷歌智能助理中,为美式英语、日语和印度尼西亚语生成逼真的声音。

谷歌翻译提供了80种语言之间的即时翻译,支持子词、句子和网页的翻译。谷歌翻译手机应用还支持通过相机拍摄进行翻译,以及支持11种手写语言的翻译,实现了图像和文字、语言和语言之间的交流互通。

谷歌Lens是一款基于图像识别和光学字符识别技术的人工智能应用,能够让机器学会“看图说话”,实现图像模态和文字模态信息之间的转换,也能进行信息检索。例如,它可以识别图像中的实例并输出实例的名称,扫描公司或商店的外观并提供详细信息和评价。

谷歌Duplex实现了人工智能与人类自然语言流畅交流的能力。例如,它可以代表用户给饭馆或理发店打电话,帮助用户预订时间,并且回答带有“嗯哼”类情感助词的问题,使得人工智能更加“像人”。

谷歌Photos利用人工智能技术分析照片内容,并自动为照片添加标签。用户可以使用内置的编辑工具轻松修复照片,还可以利用人工智能自动创建拼贴、动画、电影、风格化图片等。

谷歌Allo是一款人工智能短信应用,它能够根据用户的历史输入了解用户的对话习惯,并根据接收到的图像或文字短信自动给出回复建议。

谷歌Assistant是一款集成了谷歌Lens、WaveNet、谷歌翻译等前沿机器学习技术的强大人工智能助手。它具备领先的自然语言处理能力,可以与用户进行对话、文字交流等信息交互,并理解用户的指令调用其他软件或硬件。它还可以理解用户输入的图像或视频,识别并分析其中的各种信息,帮助用户理解视频内容。

Facebook是一家全球领先的社交网络服务公司,在社交软件上应用和发展了机器学习技术。在Facebook中,机器学习主要用于使网络社交变得更加有趣、方便,提升用户体验。例如,视频风格渲染和图像风格渲染可以将视频或图片的风格艺术化为其他艺术风格,文字翻译能够将朋友圈中的文字内容和评论内容翻译为用户设置的语言,自动给视频添加隐藏式字幕,帮助用户理解视频信息,为盲人生成图像说明,使得他们能够浏览图像,自动识别人脸并标注其名称,自动检测并删除不良内容,减少社交网络中的不良信息,构建健康和谐的网络环境,以及根据用户浏览习惯自动推送感兴趣的图像或视频。

特斯拉是一家电动车及能源公司,其自动驾驶技术是一个典型的多模态应用系统。自动驾驶技术通过电脑系统接收视觉信息、雷达信息、全球定位系统的位置信息、语音信息、自然语言信息等多模态输入。它会自动识别视觉信息中的车道标志线、行人和汽车,语音信息和自然语言信息中的驾驶人命令,雷达信息中的车辆、行人和障碍物,并综合各种信息确定当前汽车的行驶状态,决定行驶方向和速度。

除了谷歌和Facebook,苹果、微软、亚马逊、腾讯、百度、阿里巴巴等公司也应用了多种机器学习算法构建了类似的多模态应用系统。例如,苹果、微软、亚马逊分别拥有人工智能助手Siri、Cortana和Alexa;腾讯在图像识别和标注方面进行了应用;阿里巴巴开发了商品推荐系统;百度致力于自动驾驶技术的研发。

此外,多模态系统还应用于导航、生理病变研究、环境监测、天气预报、安全监控等领域。例如,生物医学图像识别中的CT(计算机断层扫描)技术;利用图像识别技术对航空遥感和卫星遥感图像进行加工,提取有用信息,进行天气预报和环境监测;采用图像识别技术实现人脸识别、指纹识别、车牌识别,提高社会安全水平。

多模态深度学习在各个领域都展现出巨大的潜力和商业价值,其应用前景广阔,对人们的生活和工作产生了积极的影响。

六、国内外多模态深度学习公用数据集 多模态深度学习作为一个有着极大发展潜力的深度学习的研究方向,大量的研究机构在对其现有的模型不断地进行创新和探索,完善数据集,提高多模态深度学习模型运算速度,提高输出预测准确率。表 2汇总了各多模态深度学习问题和其相应的数据集,以及基于该问题和相应的数据库学习 结果。   七、多模态深度学习的发展方向

a)神经网络的完备数学描述和理论体系是一个复杂而庞大的研究领域。神经网络的数学描述主要基于神经元之间的连接和激活函数的作用。典型的神经网络包括输入层、隐藏层和输出层,每个神经元接收来自前一层神经元的输入,并通过激活函数将其转换为输出。通过不同层之间的连接权重,神经网络能够学习和表示复杂的非线性关系。

理论体系包括神经网络的结构和参数优化方法。在神经网络的结构方面,包括不同层的选择、神经元的数量和连接方式等。参数优化方法涉及如何通过训练数据调整神经网络的连接权重和偏置,以使其能够更好地拟合输入数据和产生准确的输出预测。常见的优化算法包括梯度下降法、反向传播算法以及各种变种和优化技术。

b)构建大型多模态数据库是进行多模态深度学习的重要一步。数据库中所包含的数据类型和数量对于模型的训练和性能起着关键作用。好的数据库应该具有丰富的多模态数据,涵盖多个领域和应用场景,并且数据应该具有高质量、高标注准确度和广泛的覆盖范围。同时,数据库的规模和多样性也会对模型的泛化能力和应用范围产生影响。

c)探索更精细的模态数据特征表示是为了更好地理解和利用多模态数据中的信息。不同模态的数据具有不同的特点和表达方式,因此需要研究如何对每个模态进行有效的特征提取和表示。这包括使用传统的特征提取方法,如手工设计的特征和传统的机器学习方法,以及探索使用深度学习方法自动学习特征表示的技术,如卷积神经网络和循环神经网络等。

d)参数量化分析是为了降低多模态深度学习模型的复杂度和提高效率。多模态深度学习模型通常具有大量的参数,这对于模型的存储和计算资源要求非常高。因此,研究者需要探索更简洁的参数表示形式,如稀疏表示、低秩表示等,并开发高效的训练算法来减少模型的参数数量和计算复杂度。

e)赋予机器模态泛化能力是为了使多模态深度学习模型能够在未见模态上进行预测和推广。现有的多模态学习方法通常是在已有的模态上进行训练和学习,但当面对未见的模态时,模型往往无法有效地处理。因此,研究者需要探索如何使多模态模型具有更好的泛化能力,能够从已有模态的知识中推广到未见模态的数据上。

f)多模态学习中的神经网络结构和模态表示学习缺乏统一的标准和准则,需要进一步的研究和探索。目前,研究者通过试验和实践选择和组合不同的神经网络结构和模态表示学习方法,但缺乏一个统一的标准来评估和选择最佳的组合形式。因此,需要更多的研究来定义模态学习的标准和指导原则,以便更好地组合和利用不同的模态信息。

g)多模态深度学习的优化问题通常是非凸优化问题,这导致了训练过程中的鞍点问题和局部最优问题。目前的深度学习优化算法仍然无法完全避免这些问题,使得研究者无法确定是优化过程未找到全局最优解还是模态表示和组合存在问题导致预测结果不佳。因此,研究者需要提出更有效的优化算法来解决非凸优化问题。

 


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有