什么是多模学习?
我们平常使用的如图像识别,语音识别这种输入单个样本x(尽管样本可能有多个特征),但是输出对应的y值(结果)就是比较简单的单模态模型。
即单个模型对输入的信息进行线性或者非线性的映射。
多模态可以指的是通过多个模型的组合来让深度学习学习到更多不同的特征。如我们生活中对于事物,除了仅仅靠眼睛捕获,还有耳朵分析,嗅觉以及触摸去感受,这就类似于通过多个深度学习模型去学习一个事物的特征。这样做不仅仅能提取到更多的特征,而且更加准确和高效。
多模态的应用
-
视觉-文本模态:这种多模态包括图像和文本数据。例如,在图像描述生成任务中,模型需要输入一张图像并生成一个对该图像的自然语言描述。
-
视觉-声音模态:这种多模态包括图像和声音数据。例如,在视频分类任务中,模型需要同时考虑视频中的图像和声音信息,以确定视频的类别。
-
文本-声音模态:这种多模态包括文本和声音数据。例如,在语音识别任务中,模型需要同时考虑声音和文本信息,以确定所说的话语。
-
视觉-文本-声音模态:这种多模态包括图像、文本和声音数据。例如,在视频问答任务中,模型需要同时考虑视频中的图像、声音和文本信息,以回答提出的问题。
以上是比较常见的多模态类型,但实际上,还有其他类型的多模态,例如运动-声音模态、触觉-声音模态等。多模态的类型取决于所涉及的感官类型和任务类型。
模态的融合
前融合
前融合比较容易理解,那么就是通过我们各个不同的模型去提取这个样本(x)的特征,如我们想要了解分析一部视频中的人物的情绪。
做法如下:
可以利用卷积提取每一帧的图片人物的表情,通过LSTM,RNN,HMM等提取人物的对话,利用情感分析模型去Transformer分析对白。这样把收集下来的特征进行堆叠,或者加权集成在一起,获得高纬度的特征然后输入到模型中进行学习和输出。
后融合
这个其实和前融合差别并不是很大,只是在收集特征后并不是在输入模型前融合在一起,而是通过各个不同的模型先对输入的特征进行预测然后输出结果进行平均或者加权投票,最终输出最终结果。
如上面的例子,先利用vgg把每一帧的图片进行特征提取,输出结果,利用Transformer去对文字进行处理再输出结果然后把各个模型的各个结果进行加权投票得出最终结果。
混合融合
混合融合是组合了前融合和后融合的方法,其在综合了前融合和后融合的优点的同时,也增加了预测模型的结构复 杂度和训练难度。 由于神经网络结构的多样性和灵活性,在实现混合融合的研究中,神经网络得到了广泛的应用。
Wu 等人构建了视频和声音信号经过仅基于视频信号和仅基于声音信号的听声辨人模型,产生模型预测,同时视频信号和声音信号的集 成特征输入视听相关模型(audio-visual correlative model, AVCM),产生模型预测,采用加权方式整合模型预测,获得 识别结果。
在图像问答任务中,Xu和 Lu用递归神经 网络和卷积神经网络分别学习问题语句和图像的信息,用注意力机制实现问题语句信息和图像信息的融合。
在手势识别任务中,Neverova 等人[105]分别用卷积神经网络对手势视频中的左手、右手包含的时间信息和信息进行学习和融合, 并行地使用卷积神经网络提取身体姿势的图像信息和声音信 息;然后使用全连接神经网络进行各信息融合,在输出层输出辨识结果。
参考连接
https://zhuanlan.zhihu.com/p/475734302