首页 > 其他分享 >绿盟 2020年数据安全前沿技术研究报告 学习笔记2和下载地址

绿盟 2020年数据安全前沿技术研究报告 学习笔记2和下载地址

时间:2022-12-24 16:02:16浏览次数:67  
标签:绿盟 泛化 隐私 敏感 匿名 前沿技术 数据安全 数据 属性

多方​​数据安全​​的联合 AI建模

参考资料

​绿盟 2020 数据安全前沿技术研究报告​

数据驱动 AI建模,一般来说,模型效果与训练数据的特征维度与样本规模密切相关。然而,在实 际多数场景中,单家企业拥有的数据难以支撑大规模的 AI建模。那么,多方联合 AI建模,破除“数据 孤岛”实现数据的融合与共享,通过​​分布式​​ 的大规模数据训练升模型效果,这种需求在企业间共享场
景日益增多。

绿盟 2020年数据安全前沿技术研究报告 学习笔记2和下载地址_数据

 合规条款

同 5.1.2 节的合规条款。

绿盟 2020年数据安全前沿技术研究报告 学习笔记2和下载地址_泛化_02

 问题挑战传统​​集中式​

的机器学习,可通过差分隐私等技术可实现一方的隐私保护,然而无法满足多方机器学 习以及隐私保护的需求;分布式的机器学习主要用于解决数据的存储以及计算瓶颈,但无法保证多方输 入数据的安全与隐私问题。总的来说,前面的两种机器学习范式已经无法应对多方联合 AI建模与隐私 保护双重需求带来的挑战。

绿盟 2020年数据安全前沿技术研究报告 学习笔记2和下载地址_数据_03

 应对技术: 联邦学习(参见 5.5 节)

数据匿名

数据匿名 (Data Anonymization),是对个人信息进行泛化和屏蔽等处理,使得对应的个人信息 主体无法被识别,达到“匿名”的效果。目前该技术的主要实现技术包括 K- 匿名 (K-anonymity)[23]、 L- 多样性 (L-diversity)[24] 和 T- 近似性 (T-closeness)[25] 模型。

其中,K- 匿名是最早研究的匿名技术,它可以保证数据表中至少有 K条记录泛化为相同的取值。下 面通过例子进行原理的阐述:假设为了研究和数据挖掘目的,医院有一份医疗数据集拟对外公开发布,为保护患者隐私,需对患者的身份进行保护,那么可应用 K- 匿名技术。如图 5-1 所示,它对原始医疗 数据集进行 K- 匿名处理 (参数 K=2),对出生年月、性别和邮编进行泛化和屏蔽处理等操作,使得处 理后的数据集除敏感属性外,相同的记录形成的集合(一般称为等价组)至少包括 2 项记录。那么这样 处理保证了一定的数据可用性,同时也保护了患者的隐私:即使gj者有背景知识(例如了解朋友在这 个数据集中,且拥有朋友的出生年月、性别和邮编详细的属性信息),也无法唯一地确定到底那一条记 录属于朋友的诊断记录。

由于 K- 匿名不对敏感属性进行约束,当等价组的敏感属性取值相同时,仍然存在隐私风险。如图 5-1 的数据表索引为 3、4,gj者即使无法识别出这两条记录具体那一条属于被gj对象,但由于敏 感属性完全相同,因此可以直接推断出患病情况,从而同样造成隐私泄露。后续学者出了 L- 多样性 (L-diversity)和 T- 近似性(T-closeness)模型。

标签:绿盟,泛化,隐私,敏感,匿名,前沿技术,数据安全,数据,属性
From: https://blog.51cto.com/baidu666/5967147

相关文章