论文标题:Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion
论文作者:Yangming Zhou, Yuzhou Yang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang
论文来源:ICMR 2023,paper
论文代码:暂无
介绍
- 目前的多模态方法主要集中在文本和视觉特征的融合上,但未能有效地利用细粒度和粗粒度级别的多模态信息
- 由于模态之间缺乏相关性或每个模态所做的决策之间存在矛盾,它们受到歧义问题的困扰
该图展示了Weibo和Gossip数据集中的两个例子,展示了上述两个挑战。
上图描绘了多粒度假新闻检测的过程,其中文本和图像的单模态特征都无法验证真实性。人们会首先看到图片中的乞丐和骆驼,以及文本中的乞丐、乞讨、骆驼、截肢、膝盖、躺等文字。除了匹配的元素(标记为蓝色区域),他们会发现截肢、膝盖和谎言这三个词与图像内容(标记为红色区域)不匹配。随后,他们会从整体上理解句子和图像的语义,进行分析,判断两者是否匹配,最终得出关于新闻真实性的结论。许多现有的工作往往忽略了这一点。
下面的图展示了一个模棱两可的例子。帖子中的视觉对象和文本实体没有显著的匹配关系,语义上是不相关的。人工审查可以很容易地判断这不太可能是假新闻,因为文本内容提供了事件的正式和详细的表达。然而,过度强调多模态融合的模型可能会因为多模态特征的不匹配而产生误判。
针对上述问题,本文提出了多粒度多模态融合网络(Multigrained Multi-modal Fusion Network, MMFN)。MMFN方法集成了单模态特征和多粒度多模态融合特征,用于更准确的假新闻检测。
贡献:
- 提出了MMFN,它实现了在不同粒度级别上处理多模态特征的思想,以形成反映新闻的详细和全局方面的综合表示
- 设计了两个单模态分支,并采用CLIP预训练模型来评估跨模态相关性,进一步解决高跨模态歧义场景带来的问题
- 在三个著名的数据集上进行了全面的实验,其中MMFN优于最先进的假新闻检测方法;消融研究验证了粒度级处理和多模态特征调整的有效性
方法
MMFN的网络设计如图所示,由多模态特征编码器(预训练的BERT对文本进行编码;Swin Transformer对图像进行编码)、多粒度特征融合、单模态分支和基于CLIP相似度的模态加权以及假新闻分类器组成。
多模态特征编码器
通过BERT对文本特征编码
新闻帖子的文本内容是由文本和图像中提取出的OCR的拼接,它是一个顺序的单词列表,表示为\(\left.\mathbf{T}=\left[\begin{matrix}{t_{1},t_{2},\ldots,t_{n_{w}}}\\\end{matrix}\right.\right]\)。
对文本应用BERT编码后,得到的文本特征为\(\mathbf{T}^{b}=\left[t_{1}^{b},t_{2}^{b},\ldots,t_{n_{w}}^{b}\right]\),其中\(t_{i}^{b}\)是文本embedding中的第i个token的最后一个隐藏状态的输出,定义词embedding的维度为\(d_b\)。
通过Swin-T对图像特征编码
给定图像内容\(\mathbf{V}\in\mathbb{R}^{w\times h}\),Swin-T将其转换为序列嵌入\(\mathbf{V^{s}}=\left[v_{1}^{s},v_{2}^{s},\ldots,v_{n_{p}}^{s}\right]\),其中\(
标签:模态,grained,Multi,CLIP,特征,boldsymbol,MMFN,文本 From: https://www.cnblogs.com/cy-8516/p/18032921