联邦学习笔记——002
2022.11.26周六
今天学习了联邦学习中又一篇很经典的论文——Federated Machine Learning: Concept and Applications(联邦机器学习:概念和应用)
这篇文章是杨强教授团队于2019年所写的一篇综述。
(一)论文概览
1.摘要
针对数据孤岛以及数据的隐私安全两大挑战,在谷歌于 2016 年首次提出的联邦学习框架之外,作者对安全联邦学习框架做了详尽的调研,本文引入了一个全面的安全联邦学习框架,包括 horizontal federated learning,vertical federated learning 和 federated transfer learning。作者建议在不同的组织之间建立基于联邦机制的数据网络,在不损害用户隐私的前提条件下实现知识共享。作者分别从定义、结构以及应用三个方面进行了介绍,同时介绍了已有的相关研究工作。
2.引言
随着AlphaGo的成功,人们自然地希望在生活的各个方面,可以实现如AlphaGo强大的、由大数据驱动的人工智能技术。然而,真实情况不尽如人意;除了一些少数的行业,大多数领域仅拥有有限的数据或低质量的数据,为人工智能技术的应用带来了很大困难。是否可以将不同组织机构的数据集合在一起?事实上,在许多情况下,要打破数据源之间的障碍是非常困难的。一般地,一些人工智能工程所使用的数据包含多种类型。例如,在一个人工智能驱动的产品推荐服务,买家有关于产品和用户购买记录的数据,但没有描述用户支付能力和购买偏好的数据。在大多数行业,数据以孤岛的形式存在。由于行业竞争、隐私安全和复杂的行政管理流程,甚至在同一个公司内部不同部门之间的数据整合都面临巨大的阻力。几乎不可能整合分散在全国各地和机构的数据,或成本巨大。
同时,随着大公司越来越意识到数据安全和用户隐私的重要性,数据隐私和安全性已成为全球性的问题。有关公共数据泄露的新闻引起了公共媒体和政府的极大关注。例如,Facebook最近的数据泄露事件引起了广泛的抗议[70]。为了避免此类事件的发生,世界各国都在加强法律以保护数据安全和隐私。例如欧盟在2018年5月25日颁布了《通用数据保护条例》(General Data Protection Regulation,GDPR)[19]。GDPR的目的是保护用户个人隐私并保证数据安全。它要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘的权利”,即,用户可以删除或撤回其个人数据。违反该法案的公司将面临严厉的罚款。类似的隐私和安全法案正在美国和中国实施。例如,2017年颁布的中国的网络安全法和民法通则要求,互联网企业在与第三方进行数据交易时,不得泄露或篡改其收集的个人信息,他们需要确保拟议的合同遵循法律数据保护义务。这些规则的建立将有助于建立更加文明的社会,但是同时为现如今由数据驱动的AI技术提出了新的挑战。
更具体地说,人工智能中的传统数据处理模式通常涉及简单的数据交易,一方收集数据并将其传输到另一方,另一方负责清理和融合数据。最终,一个第三方将整合数据并构建模型以供其它方使用。这种模型常常作为产品进行出售。同时,由于用户可能不清楚模型未来将如何被使用,因此,这样的做法违反了如GDPR这类法律。所以,人们面临着数据以孤岛形式存在的困境,在很多情况下,被禁止收集、融合和使用数据。如何合法地解决数据孤岛的问题成为了时下人工智能研究人员和从业者面临的主要挑战。
本文中,作者介绍了一个新的方法,联邦学习,该方法是应对这些挑战的一个可能的方案。作者调研了联邦学习中已有的研究工作,并提出了全面的安全联邦学习框架的定义、类型以及应用。作者讨论了联邦学习框架如何能成功地用于各个行业。在推动联邦学习的过程中,作者希望人工智能发展的重点从提高模型性能(这是大多数人工智能领域目前正在做的事情)转移到符合数据隐私和安全法律的数据集成方法。