论文信息
论文标题:MDFEND: Multi-domain Fake News Detection
论文作者:Junjie Li, Yixin Zhang, Zilei Wang, Keyu Tu
论文来源:aRxiv 2022
论文地址:download
论文代码:download
1 Background
近年来,随着互联网的快速发展,社交媒体(例如,微博、推特)成为了人们获取信息的重要渠道,但同时也成为了虚假新闻广泛传播的平台。微博2020年度辟谣报告显示,全年有 76,107 条不实信息被官方处理。虚假新闻会给个人乃至社会造成灾难性的影响,因此,虚假新闻检测任务尤为重要。
尽管对虚假新闻检测的研究越来越多,但是大部分工作只关注于某个单领域。例如在 2016 年美国大选期间,政治类的虚假新闻不断涌现,这些虚假新闻严重影响了投票者的判断,有很多工作针对这些虚假新闻进行了分析和检测;新冠疫情爆发后,许多有关健康的虚假新闻在社交媒体上广泛传播,包括 “5G网络会加剧新冠病毒的传播” 的无根据言论和“用柠檬或盐漱口和注射漂白剂可以预防新冠病毒”的虚假疗法。这些虚假新闻轻则误导群众认知,重则造成生命危险。许多研究者认识到了其严重的危害性,并着手进行了COVID-19 相关的虚假信息检测工作。
单领域的虚假新闻检测固然重要,但其十分依赖特定领域数据的丰富性,难以适用于数据较少的新闻领域。如何解决这个问题呢?现实场景中,我们往往能获得政治、健康、社会生活、文体娱乐等多个领域的数据(图1),因此挖掘多领域数据提供的知识是一种可行的方法。许多早期的工作将所有领域的数据混合在一起不做领域区分地进行虚假新闻检测,然而他们并没有利用领域标签和建模领域之间的关系;部分工作划分了不同事件/领域,但是前者忽略了领域特异特征,后者没有充分利用领域标签,并且随着领域数目的增多,所有领域的共性成分一定是不增的(大概率会下降),因此上述工作对领域共性特征的捕捉会越来越困难。图 2 直观地展示了单领域虚假新闻检测、混合领域虚假新闻检测和多领域虚假新闻检测的区别。
本文首次建模和探索多领域虚假新闻检测问题。具体地,我们首先构建了首个中文多领域虚假新闻数据集——Weibo21,该数据集包含来自于政治、军事、社会生活等9个领域的真假新闻数据;此外,提出了一种简洁而有效的多领域虚假新闻检测模型——MDFEND。
为了量化不同领域之间的差别,我们选取了 4 个领域进行词频分析,图3 展示了不同领域中的高频词。可以看出,不同领域的文本分布存在差异。
2 Method
整体框架如下:
2.1 Representation Extraction
对于一条新闻,经过 BERT 编码之后可以得到一组词向量 $W=\left[w_{[C L S]}, w_{1}, \ldots, w_{n}, w_{[S E P]}\right]$,然后放入一个 Mask-Attention network 得到句子向量 $\boldsymbol{e}^{s}$ ,为了区别表示不同领域,本文为每一个域初始化了一个可学习的域表示 $e^{d}$。
本文使用了多个 "Expert" 网络来获取每一条新闻的不同表示。一个 “Expert" 网络可以表示为 $\Psi_{i}\left(W ; \theta_{i}\right)(1 \leq i \leq T)$,词向量 $W$ 作为 “Expert" 网络的输入, $\theta_{i}$ 表示待学习的参数, $T$ 是 "Expert" 网络的个数。一个 “Expert" 网络获取的特征表示为 $r_{i}=\Psi_{i}\left(W ; \theta_{i}\right)$,在本文的模型中,"Expert" 网络采用了 TextCNN 结构。
2.2 Domain Gate
为了获得新闻数据的高质量特征表示,我们采用 “Domain Gate ” 来聚合不同 “Expert” 网络获取的特征表示。为了根据领域自适应地对不同的 “Expert” 网络进行聚合,我们将域表示 $e^{d}$ 和新闻的句子表示 $e^{d}$ 同时作为 “Domain gate” 的输入:
$a=\operatorname{softmax}\left(G\left(e^{d} \oplus e^{s} ; \phi\right)\right)$其中,$G(\cdot ; \phi)$ 是一个前馈神经网络,$ a \in \mathbb{R}^{n}$ 是一个长度为 “Expert" 个数的权重向量,各维分别代表不同 “Expert” 的权重信息。最终获得的新闻特征向量为:
$v=\sum\limits _{i=1}^{T} a_{i} r_{i}$
2.3 Prediction
将新闻的特征向量 $v$ 输入分类器,并使用二分类交叉熵损失函数进行分类:
$\hat{y}=\operatorname{softmax}(M L P(v))$
$L=-\sum_{i=1}^{N}\left(y^{i} \log \hat{y}^{i}+\left(1-y^{i}\right) \log \left(1-\hat{y}^{i}\right)\right)$
3 Experiment
Baseline Methods (1) singledomain baselines: TextCNN_single [16], BiGRU_single [23], and BERT_single [9]; (2) mixed-domain baselines: TextCNN_all [16], BiGRU_all [23] and BERT_all [9]; (3) multi-domain baselines: EANN [40], MMOE [26], MOSE [31] and EDDFN [35]在本文的实验中,BERT 模型的所有层都被冻结,我们平均最后一层得词向量得到句子的向量表示;TextCNN 中的卷积模块结构与我们的“专家”网络模块结构保持了一致;在EANN 模型中我们采用了只使用文本的版本;在 MMOE 和 MOSE 模型中,我们将不同的领域视为不同的任务以贴合两个模型的建模;在 EDDFN 模型中,我们显式利用了已标注的领域标签。
Result实验结果如表2所示。我们发现:
- 混合领域模型和多领域模型整体表现能力优于单领域模型,证明了使用多个领域数据的有效性;
- 多领域模型表现能力优于混合领域模型,说明仅仅将多个领域的数据混合在一起是不够的,多领域学习有着重要的作用;
- 单领域模型在个别领域上表现能力优于混合领域模型,这是由于并不是所有其他领域的数据都对本领域的数据存在正向的作用,会存在一些产生负影响的数据;
- 我们的模型 MDFEND 通过将领域类别和文本内容同时作为 “ Domain Gate” 的输入,有效地建模了领域之间的关系。并且这种自适应地结合不同领域的方法要比解耦领域共享和领域特异特征有效(EDDFN)。因此,我们的模型 MDFEND 表现能力优于其它多领域模型。