读论文-新闻推荐系统：近期进展、挑战与机遇的评述(News recommender system_ a review of recent progress, challenges, and oppor

标签：recommender 新闻推荐系统 system 用户 challenges 读者 NRS

前言

今天读的论文为一篇于2022年发表在"人工智能评论"(Artificial Intelligence Review)的论文，文章主要强调了NRS面临的主要挑战，并从现有技术中确定了可能的解决方案。

引用这篇论文：

[1]Raza, Shaina, and Chen Ding. "News recommender system: a review of recent progress, challenges, and opportunities." Artificial Intelligence Review (2022): 1-52.

《人工智能评论》（Artificial Intelligence Review）是一本专注于人工智能领域的国际期刊，它以工程技术和计算机科学中的人工智能综合研究为特色。该期刊由知名的SPRINGER出版社出版，自1986年起就开始发行，历史悠久，是人工智能领域内的重要学术刊物之一。它涵盖了人工智能的多个方面，包括但不限于机器学习、自然语言处理、计算机视觉、智能系统、以及与人工智能相关的伦理和社会问题等。《人工智能评论》通常发表高质量的研究论文、综述文章和技术报告，旨在为学术界、工业界和公共政策制定者提供最新研究成果和趋势分析。通过这些出版物，期刊不仅推动了人工智能理论的发展，也促进了其在各个领域的应用。此外，作为一个国际性的学术期刊，它提供了一个多学科交流的平台，鼓励来自世界各地的研究者分享他们的创新想法和研究成果，从而推动全球人工智能技术的发展。

摘要

Nowadays, more and more news readers read news online where they have access to millions of news articles from multiple sources. In order to help users find the right and relevant content, news recommender systems (NRS) are developed to relieve the information overload problem and suggest news items that might be of interest for the news readers. In this paper, we highlight the major challenges faced by the NRS and identify the possible solutions from the state-of-the-art. Our discussion is divided into two parts. In the first part, we present an overview of the recommendation solutions, datasets, evaluation criteria beyond accuracy and recommendation platforms being used in the NRS. We also talk about two popular classes of models that have been successfully used in recent years. In the second part, we focus on the deep neural networks as solutions to build the NRS. Different from previous surveys, we study the effects of news recommendations on user behaviors and try to suggest possible remedies to mitigate those effects. By providing the state-of-the-art knowledge, this survey can help researchers and professional practitioners have a better understanding of the recent developments in news recommendation algorithms. In addition, this survey sheds light on the potential new directions.

如今，越来越多的新闻读者选择在网上阅读新闻，在那里他们可以从多个来源获取数百万篇新闻文章。为了帮助用户找到正确且相关的内容，新闻推荐系统（NRS）被开发出来，以减轻信息过载问题，并向新闻读者推荐可能感兴趣的新闻项目。在本文中，我们强调了NRS面临的主要挑战，并从现有技术中确定了可能的解决方案。我们的讨论分为两部分。在第一部分，我们介绍了NRS中使用的推荐解决方案、数据集、超越准确性的评估标准和推荐平台。我们还讨论了近年来成功使用的两类流行模型。在第二部分，我们专注于深度神经网络作为构建NRS的解决方案。与以往的调查不同，我们研究了新闻推荐对用户行为的影响，并尝试提出可能的补救措施来减轻这些影响。通过提供最新的知识，这项调查可以帮助研究人员和专业从业者更好地理解新闻推荐算法的最新发展。此外，这项调查还揭示了潜在的新方向。

摘要要点总结

摘要这段话主要讨论了新闻推荐系统（NRS）在解决信息过载问题上的重要性和作用。随着越来越多的读者选择在线阅读多来源的新闻文章，NRS被开发用以推荐个性化和相关的新闻内容。文中首先概述了NRS中使用的推荐技术、数据集、评估标准以及平台，并介绍了近年来成功应用的模型类别。其次，文中特别关注了深度神经网络在构建NRS中的应用，并且探讨了新闻推荐对用户行为可能产生的影响及其潜在补救措施。最后，这项调查旨在帮助研究者和从业者更好地了解新闻推荐算法的最新进展，并指出了未来研究的潜在新方向。

引言

随着交互式通信技术的进步，互联网因其全天候可用性、即时更新和免费分发而成为新闻的主要来源。根据皮尤研究中心2018年的一份报告，大约九成的美国成年人（93%）倾向于通过数字报纸、社交媒体、新闻应用程序等在线阅读新闻（无论是移动设备还是桌面设备）。尽管技术取得了如此进步，研究表明，在线媒体并没有为新闻价值定义出与印刷媒体显著不同的标准（Shoemaker 2006）。这可能是因为缺乏规定程序来及时提供多样化的新闻，以及系统无法更好地模拟用户行为。因此，有必要转向使用推荐系统等工具和技术（Adomavicius和Tuzhilin 2005），以提供符合读者信息需求的定制新闻更新。

许多新闻来源和机构，如CNN、BBC、《纽约时报》、《华盛顿邮报》等，为新闻读者提供了随时随地的访问权限，使他们能够通过在线门户网站浏览最新的新闻。为了吸引更多的流量到他们的网站，这些在线门户网站越来越多地采用推荐系统来改善他们在网站上的用户体验。在推荐领域中，“用户体验”可能有不同的解释，如可用性、实用性、有效性或与系统的满意交互（Konstan和Riedl 2012；Knijnenburg等人。2012年）。向新闻读者推荐适当和相关的新闻故事是一项具有挑战性的任务。原因是新闻领域面临着与其他推荐系统应用领域不同的某些挑战。

在这些独特的挑战中，时效性是最重要的挑战之一。它考虑了新闻故事的持续时间很短、最近性、流行度、趋势以及每秒到达的大量新闻故事等因素。新闻领域的另一个重要挑战是用户行为的高度动态性。新闻读者可能具有长期或短期的偏好，这些偏好随时间逐渐或突然演变。最近，新闻内容受到了大量的操控。例如，以虚假新闻和宣传的形式向公众传播欺骗性信息（Helberger 2019）。这给新闻内容的质量控制带来了更大的挑战。

随着移动技术和应用程序在人们生活中越来越普及，新闻聚合器（如谷歌、雅虎）和社交媒体（如脸书和推特）的新闻源已经取代了人们发现新闻内容的方式。一旦新闻门户网站的推荐功能被安装，新闻源就可以根据每个用户的算法定制。个性化是新闻推荐系统的一个有用功能，因为它可以根据新闻读者的偏好和兴趣提供新闻。然而，过于个性化的新闻故事限制了读者对不同类型新闻的接触。在个人层面，新闻读者可能会厌倦一直阅读相同类型的新闻故事。过度个性化也可能影响读者长期的行为，导致他们避免反态度（与自身信念相矛盾的态度）的信息（观点、意见）（Helberger 2019）。在社会层面，这种行为以人们拒绝接受反对观点的形式对民主构成威胁。

在新闻推荐系统（NRS）中，过度个性化通常是由于推荐方法过分强调预测准确性的结果。这些典型的以准确性为中心的方法可能未能考虑到评估推荐质量时用户的主观体验的其他方面（例如选择满意度、感知系统效能、更好的推荐以及接触不同观点）。当开发一个好的NRS时，必须考虑超出准确性的方面来评估新闻推荐的质量。

总结来说，这部分主要讲了以下内容：

互联网凭借其全天候可用性、即时更新和免费分发，成为新闻的主要来源，约93%的美国成年人在线阅读新闻。
在线媒体并未为新闻价值设定与印刷媒体明显不同的标准，主要问题在于缺乏程序提供多样化及时新闻及模拟用户行为的不足。
推荐系统等工具和技术被广泛应用以提供个性化、符合读者信息需求的新闻更新，如CNN、BBC、《纽约时报》和《华盛顿邮报》等在线门户采用推荐系统提升用户体验。
新闻推荐系统面临的挑战包括时效性（新闻故事的短期性质、最新性、流行度和趋势）和用户行为的高度动态性（用户偏好随时间演变）。
虚假新闻和宣传对新闻内容的质量控制构成挑战，影响公众获取真实信息。
新闻聚合器和社交媒体改变了人们发现新闻的方式，推荐功能根据用户的算法进行个性化定制。
过度个性化的新闻推荐可能导致用户接触面狭窄，厌倦同质化内容，并可能在个人层面限制多元观点接触，在社会层面威胁民主原则。
开发新闻推荐系统时，应超越预测准确性，考虑用户满意度、感知系统效能、多样性视角等因素来评估新闻推荐质量。

Characteristics of news domain 新闻领域的特点

在回顾NRS面临的挑战之前，首先强调了新闻领域与推荐系统的其他应用领域(如推荐电影、音乐、书籍、餐馆等)区别开来的特征。

平均消费时间通常，消费一个新闻故事的持续时间(用户阅读一篇新闻文章所花费的时间)是根据平均不超过200字的文章长度来衡量的。根据皮尤研究中心(PEW research center)的一份报告，单词数在250个以下的Footnote3故事，读者的参与时间平均需要43秒，而单词数超过5000个的故事，至少需要270秒(4.5分钟)。相比之下，一部电影的时长通常为90 ~ 120分钟，一个音乐节目的平均时长在3 ~ 5分钟之间，一本书的时长可能更长。

新闻项目的寿命新闻项目的保质期通常较短，因为它们到期很快(可能是几分钟、几小时或几天)，而音乐、书籍、电影等其他产品可能会持续几天、几周、几个月甚至几年。此外，与其他产品相比，新闻项目的发布时间和新闻网站或社交媒体网站上的评论(评论)时间之间的差距最小(秒，分钟，小时左右)。

新闻条目的目录大小新闻故事往往在很短的时间内充斥系统，例如，以每小时数千个传入新闻条目的速度。另一方面，音乐或电影服务的目录大小通常在数百或数千之间，但这些项目的持续时间更长。

期望请求-响应率新闻内容的及时传递至关重要，被认为是新闻领域的一个独特特征。新闻聚合网站上对新闻项目的请求有时会大于100秒，为了实时提供新闻，预期的响应最好在100毫秒内发送(Kille等人2017)。

顺序消费新闻项目通常是按顺序消费的，读者可能希望一次更新不同的新闻故事。顺序消费音乐项目和新闻项目之间的区别在于，前一种情况下，项目通常在一个序列中重复多次(Schedl等人，2018)，而在后一种情况下，读者希望更新不同的或正在进行的故事，而不是重复的故事(Park等人，2017a)。

多样性用户通常一次只消费一种音乐或电影类型，偶尔在不同的情绪或情况下切换到不同的类型。另一方面，新闻领域的多样性不仅对保持读者在线阅读过程中的参与至关重要，而且对读者暴露于逆态度行为也至关重要(Raza and Ding 2020)。新闻媒体的多样性是民主社会的一项关键原则(Helberger 2019)。

新闻项目通常是匿名消费的，大多数情况下没有明确的用户信息(Doychev et al. 2015;Sottocornola et al. 2018)。虽然这个问题可以通过考虑点击模式、阅读时间、浏览和导航模式等隐性信号来缓解(Ilievski和Roy, 2013;Trevisiol et al. 2014)，这些隐含的信号有时可能被错误地解读为用户的欣赏或兴趣的指标。例如，较长的阅读时间可能是因为用户疲劳或空闲时间，而不是用户兴趣的指标(Ma et al. 2016)。

通过对读者数据的过度分析，网络媒体消费也导致了对用户隐私的威胁(Desarkar和Shinde 2014)。

阅读语境具有高度演化性、时效性和社会性，并且只针对新闻领域(Raza and Ding 2020)。NRS中使用最广泛的上下文是位置(Asikin and Wörndl 2014)和时间(Park et al. 2017b)。Lommatzsch等人(Lommatzsch et al. 2017)评估了用户在时间和一周中的日期上下文方面的动态性。根据他们的调查结果，工作日新闻门户网站的访问量比周末要多。除了时间和地点，读者的上下文可能与一些最新的事件或趋势新闻、天气甚至一些性格特征(情绪、兴趣)有关。例如，在奥运会期间，通常对体育新闻不感兴趣的人可能想要获得一些比赛的最新结果。

社交媒体的影响社交媒体极大地影响了搜索和收集新闻故事的方式(Cucchiarelli et al. 2018)。读者喜欢通过跟踪新闻在社交媒体上的影响来了解更多有关新闻故事的信息。社交媒体上新闻故事的对话、持续时间、公众反应和结果也可以帮助记者确定哪些问题需要进一步关注。

情感能够吸引读者的注意力，并为事件/角色创造情感。音乐或电影能直观地唤起用户的情感，进而影响他们的偏好。情感正在越来越多地推动新闻消费行为，这既是对新闻质量的挑战，也是NRS进一步重塑自身的机会(Beckett和Deuze, 2016)。

偏见新闻项目最初是为信息目的而消费的;然而，通过以不同的风格和语调呈现新闻，可以引发偏见(Helberger 2019)。一个好的新闻故事应该向读者提供细节，以便他们做出自己的判断，并与人物/事件建立情感联系。

多模态新闻信息在当今信息时代，网络是传播信息和新闻的重要载体。尤其是社交媒体，它可以很容易地通知用户全球事件，并且已经成为受欢迎的一大新闻来源。这些新闻文章通常使用多种模态，如文本、视频、播客，以更有效地传达信息。当它是文本格式时，它可以以不同的语言传递。目前，大多数研究工作都集中在一种语言的文本新闻文章上，没有考虑多模态和多语言带来的复杂性，因为在当今新闻领域，量化跨模态和跨语言的实体表示具有挑战性。由于缺乏针对非文本格式和多语言新闻推荐的积极研究，只回顾了针对一种语言推荐基于文本的新闻的论文。然而，我们认识到需要对多模态和多语言的新闻推荐进行更多的研究。

Overview of research in news recommender systems 新闻推荐系统研究概述

General algorithmic solutions 一般算法解决方案

推荐系统中使用的传统算法可以分为:协同过滤(CF)、基于内容的过滤(CBF)和混合方法(Adomavicius和Tuzhilin 2005)。构建任何推荐系统都需要两个重要的东西，即用户和物品的内容，以及它们之间的交互。CBF算法基于共享属性空间的内容，通过比较用户概要和项目概要来构建推荐系统。与此相反，CF方法是无内容的，项目的特征通常事先不知道。CF根据用户对物品的评分、历史记录和交互行为来挖掘用户行为。

虽然这些传统的推荐算法可以应用到新闻领域，但其性能可能并不好。我们需要考虑多种场景，例如新闻环境的动态性、新闻条目的相关性以及高度依赖于上下文的用户兴趣。虽然CF可以用来解决新闻项目的动态内容生成问题，但它需要足够多的用户交互(存储为历史记录)来进行推荐。当NRS设法从用户那里收集到足够的消费数据时，新闻内容的价值就被削弱了，从而使推荐变得过时。与此相反，CBF可以通过不断更新用户配置文件以获取他们阅读的最新新闻来解决用户不断变化的兴趣(Wang et al. 2018b)。然而，CBF无法处理NRS中常见的大量临时和匿名用户。此外，在CBF中，基于统计的方法计算用户-项目之间的相似度，可能无法捕捉新闻数据中的语义和上下文信息。为了弥补CF算法和CBF算法在NRS中的缺陷，研究人员和设计人员提出了结合这两种算法的混合新闻推荐解决方案。在过去的几年中，研究者也开始关注上下文(情境，如时间、地点、情绪等)作为额外的信息来提高新闻推荐的质量。

Popular models for building news recommender systems 构建新闻推荐系统的流行模型

许多模型过去都被用来构建NRS。隐语义模型，尤其是因子分解模型是NRS中最流行和最成功的一类模型。近年来，基于深度学习的解决方案作为推荐系统的一个新兴分支出现。我们认为它们是成功用于NRS的另一类最受欢迎的模型。

因子分解模型

因子分解方法是一类用于推荐系统的算法，它将用户-物品交互矩阵分解为低维矩阵的乘积。这里我们讨论在NRS研究中使用的因子分解模型。

矩阵分解(MF)

矩阵分解是最流行的推荐算法之一，在Netflix竞赛中首次得到认可(Koren et al. 2009)。矩阵分解可用于发现两种不同类型的实体(例如用户和物品)之间的交互中表现出的潜在特征。在最近的一项NRS (Raza and Ding 2019)中，MF被扩展到包括新闻相关信息，并对读者行为的时间动态进行建模。本文提出了一种新的预测器，在MF模型中包含各种时间效应，包括时间偏差、用户偏差和项目偏差。这些增加的偏差倾向于捕获许多观察到的信号，特别是时间动态。

非负矩阵分解(NMF)

与MF方法一样，NMF是一种分解技术，它将矩阵R分解为两个矩阵U和V的乘积。然而，与MF不同的是，NMF具有三个矩阵R、U和V都没有负元素的特性。通常，NRS中有许多缺失的用户-物品交互，导致矩阵非常稀疏。在这种情况下，NMF模型通常比原始MF表现得更好。这是由于NMF算法在处理缺失值假设时的默认功能(Gillis 2020)。然而，如果评分矩阵不是过于稀疏，基于奇异值分解(Singular Value Decomposition, SVD)的MF可能会产生更好的结果。

在一个相关的NRS (Yan et al. 2012)中，新闻相关信息被包含到NMF模型中，其中NMF用于聚类新闻文档和主题发现。在另一篇论文(Shu et al. 2019)中，NMF被用于从新闻内容和用户-新闻交互中学习潜空间嵌入。

张量分解(TF)

TF通过引入具有额外维度的潜在向量来扩展MF模型。基于tf的推荐系统通过考虑关于用户和项目的额外信息，超越了MF技术的局限性，从而产生了更准确的推荐(Frolov和Oseledets 2017)。因此，TF方法在NRS场景中很有用，我们需要考虑更多的上下文建议，如时间、位置和社交互动。然而，包含太多维度可能会导致昂贵的计算。

在相关的NRS (Wang et al. 2015)中，TF被用于将新闻条目和新闻读者相关的上下文信息纳入推荐模型。以上翻译结果来自有道神经网络翻译（YNMT）· 计算机

总结

总结来说，文章主要讲了以下几点：

随着网络新闻阅读的普及，新闻推荐系统（NRS）被开发来解决信息过载问题，通过个性化推荐提升用户体验。
NRS面临的主要挑战在于如何有效筛选并精准推送相关与有价值的新闻内容给用户。
文章分为两部分讨论：第一部分概述了NRS中采用的不同推荐解决方案、数据集的使用、超越准确性评估标准以及推荐平台，并提及了近年来广泛应用的两类推荐模型。第二部分重点探讨了深度神经网络在构建新闻推荐系统中的应用，并研究了推荐算法对用户行为的影响及可能的改善措施。
该调查提供了关于新闻推荐算法最新发展的全面知识，旨在指导研究人员和从业者了解行业现状和发展趋势，并揭示了未来潜在的研究方向。

写在结尾

好了，今天的论文就读到这了，明天见！

标签：recommender,新闻,推荐,系统,system,用户,challenges,读者,NRS
From： https://www.cnblogs.com/wephilos/p/18119945