首页 > 其他分享 >隐私计算:数据匿名化的优点和缺点

隐私计算:数据匿名化的优点和缺点

时间:2023-12-26 11:35:12浏览次数:26  
标签:可以 用户 匿名 隐私 缺点 数据 数据库

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。

数据分析是如今商业社会业务运营的核心工具,节省成本的同时还可以深入了解用户偏好,通过定制产品来收获最大化收益。然而,企业持有的大量数据是用户的私有数据,可能会危及用户的隐私安全。因此全球范围内已经制定实施了一些相关法律法规,例如《通用数据保护条例》(GDPR)、1996年的《健康保险可移植性和责任法案》(HIPAA)和《加州消费者隐私法》(CCPA)。
在保护数据隐私的各类方法中,数据匿名化是经常采用的一种方法,可以在不损害用户隐私和安全的情况下使用其持有的信息。本文将探讨数据匿名化这种方法的缺点和优势。

什么是数据匿名化?

数据匿名化是一种去除或哈希化与个体相关联的各种数据点的过程。这个过程使组织能够存储和交换用户数据,可以用于分析、可视化或与第三方分享,同时不会暴露数据与特定个人的任何联系。

数据匿名化通常会尽量保留更多的数据,匿名化的数据往往与原始数据集相似,但粒度较低。例如,如果收集完整的出生日期(月/日/年),可以通过隐藏月份和日期,只保留年份来进行匿名化,从而不暴露个人可识别信息(PII)。

数据匿名化技术

以下是如今常用的一些数据匿名化技术。

  • 数据屏蔽 涉及创建数据的一个虚假但结构相似的版本。通过修改技术来实现,如洗牌、简单的单词或字符替换、加密或屏蔽某些数据。例如,字母“R”可以通过替换屏蔽变成“L”,或者信用卡号可以被屏蔽为“**** **** **** **** 1126”。

  • 伪匿名化 是从数据集中删除标识符并替换为伪名称的过程。这种匿名化技术的主要目标是确保特定数据除非与另一组信息相结合,否则无法与可识别的个人匹配。伪匿名化数据的简单方法是用假名(伪名)替换个人的姓名。例如,如果用户在注册时提交姓名“Jane”,则主数据库可以简单地将其存储为“Person 2647”。将Person 2647与Jane的映射算法可以存储在另一个安全数据库中。

  • 泛化 是删除数据的更具体方面以减少其可识别性的过程。这实际上就像缩小放大镜,隐藏了更精细的细节,但仍保持了用于分析的高准确性。例如,如果有一个数据集,其中包含每个人的年龄,可以使用类别进行泛化,如21到25和26到30。还可以通过删除房屋和街区号码而保留街道名称、城市或邮政编码来泛化地址。

  • 数据交换 是一种简单的匿名化方法,涉及将数据某一列中的属性与同一列中的其他属性进行交换。这意味着在此过程结束时将得到一个混洗的数据库,不会透露任何自然人的具体信息。

假设有如下数据库:

First Name Last Name D.O.B City
John Maxwell 12/4/1985 London
Claire Cook 3/7/1994 New York
Matt Jansen 5/10/1991 Amsterdam
Susan Clark 17/11/1989 Stockholm

数据可以如下所示交换以匿名:

First Name Last Name D.O.B City
Matt Clark 5/10/1991 London
Claire Maxwell 12/4/1985 Amsterdam
Susan Cook 17/11/1989 Stockholm
John Jansen 3/7/1994 New York

数据匿名化的优缺点

数据匿名化的优点
  1. 防止数据滥用 根据2021年Verizon数据泄露调查报告,数据匿名化有助于防止授权访问敏感数据的用户无意中滥用或暴露数据。

  2. 易于实施 匿名化主要使用简单的算法来交换、泛化、伪匿名化或屏蔽特定数据。这使得该过程成本效益高、快速且容易实施。

  3. 作为损害控制措施 没有系统是100%防不胜防的,所以始终需要准备可能的渗透。但在这种情况下,数据匿名化可以帮助保护敏感数据,因为对攻击者来说,数据不会有太多意义。该过程还有助于在数据库泄露中减少数据损失。

  4. 符合法规 欧洲联盟的GDPR要求在欧盟居民的数据必须进行伪匿名化/匿名化,数据不再被分类为个人数据,可以在不违反合规法规的情况下用于更广泛的目的。

  5. 提高业务绩效 由于匿名化数据可以在不违反合规标准的情况下进行分析和使用,企业可以利用数据了解他们的用户并提供更好的服务。

  6. 保护业务和品牌声誉 数据匿名化是组织保护敏感、个人和机密数据的重要任务的一部分。这些信息的丢失或泄露可能导致信任和市场份额的可能损失。

数据匿名化的缺点
  1. 分析不够准确 减少存储和分析的数据细化程度会导致信息不够有意义和洞察不够准确。

  2. 不维护数据关系 数据匿名化减少了数据的细化程度和准确性,因此在某些情况下破坏了数据点之间的关系。失去的关系对于任何人工智能或数据科学活动都至关重要,匿名化数据在可获得的效用方面受到限制。

  3. 仅适用于聚合数据 数据匿名化仅在需要汇总数据的情况下有用,这些方法的目标是对数据集执行统计分析。该技术不能用于分析个体记录级数据,其中个人可识别的数据对分析非常重要。在其他情况下,比如在健康研究中,这意味着如果分析显示特定主体面临致命疾病的高风险,就无法识别出那个个体以通知他们发现并将这一重要信息传达给健康受到威胁的个人。数据匿名化还使数据无法用于定向优惠的个性化,因为连接洞察力与个人的能力已经被破坏。

  4. 隐私风险仍然存在 大多数数据匿名化形式都可以通过获取外部数据集来逆向工程。例如,在伪匿名化的情况下,如果内部人员已经可以访问伪匿名化的数据,他们只需要访问伪匿名数据库就可以对整个数据集进行去匿名化。

  5. 无法在多个数据源之间链接数据 在某些情况下,人们希望在多个数据库之间记录级别上链接数据,例如,将来自基因组数据库、临床数据库和可穿戴设备数据库的患者数据进行合并。或在金融科技场景中,将银行、电信公司和保险公司的个人数据进行链接。但在匿名化的情况下,这是不可能的,记录链接的关键就是这些技术消除的标识符。

  6. 在协作设置中无法控制数据使用 匿名化技术不允许数据所有者对一旦匿名化并传输给第三方后如何使用数据有任何控制。一旦第三方收到匿名化数据,它可以以多种方式使用,包括重新识别数据,就像著名的Netflix数据去匿名化丑闻中发生的那样。

总结而言,数据匿名化的主要优点是在对聚合或个体数据进行分析时,它是一种简单、廉价的保护隐私的方式。然而,在大多数情况下,缺点远远超过了优点。数据匿名化产生的结果不够准确,不允许数据链接。它也不够安全,容易实现重新识别。此外,它也不允许对数据和模型的使用进行任何控制,也不能保护数据和模型的知识产权。然而,也许数据匿名化最具挑战性的方面是当人们想要与第三方合作时。匿名化后,无法在多个数据库之间链接数据。同样,在汇总匿名化数据的情况下,无法删除重复数据并创建有偏差的数据集。

数据匿名化技术被许多数据隐私法规明确要求或接受,但这并不意味着它们是安全的,这实际上取决于所希望获得的分析和效用类型。隐私增强工具和技术的选择需要根据具体情况进行考虑,但应谨慎使用数据匿名化,因为它已被证明很容易被破坏。寻求从数据中获取更多价值的数据驱动型企业需要一个综合性的隐私保护数据协作平台,该平台允许根据组织和数据源的需要灵活选择和组合多个隐私增强技术(PETs)。

原文地址:Data Anonymization Techniques: Pros and Cons
原文作者:Tova Dvorin
翻译 & 整理:开放隐私计算 & PrimiHub

标签:可以,用户,匿名,隐私,缺点,数据,数据库
From: https://www.cnblogs.com/primihub/p/17927766.html

相关文章

  • Unity3D MVC框架和MVVM框架优缺点详解
    Unity3D是一款非常流行的游戏开发引擎,它为开发者提供了强大的工具和功能,使得开发者能够轻松地创建各种类型的游戏。在Unity3D中,使用模型-视图-控制器(MVC)框架和模型-视图-视图模型(MVVM)框架可以更好地组织和管理游戏的逻辑和界面。对啦!这里有个游戏开发交流小组里面聚集了一帮热爱......
  • 一个有诸多缺点的单位访客系统
    前段时间,去拜访了一个单位,遇到一个失败的访客系统。这是一个失败的智能化系统,一个失败的信息化系统,一个失败的数字化系统。我去到单位门口,确实看到门口牌匾公告,让通过访客系统,可是并没有告诉访客系统在哪里。我凭着自己的知识猜到,这个访客系统在微信小程序,不在支付宝小程序,没错,我猜......
  • AI大数据分析对安全隐私的保护关键
    AI大数据分析对安全隐私的保护非常重要。随着大数据技术和人工智能的发展,个人和企业的数据越来越容易被收集和分析。这种数据分析可以为企业提供有价值的洞察和决策支持,但同时也带来了安全隐私的风险。首先,个人隐私是每个人的基本权利,保护个人隐私是法律和道德的要求。大数据分析......
  • 写原生SQL和使用ORM框架相比优缺点
    一、写原生SQL1.1优点理论上来说更可控,想怎么写就怎么写。相对来说开发起来可能更快速1.2缺点问题不好排查,可能会耗费更多时间切换数据库,sql需要重新调整(各个数据库sql写法存在区别)如果是数据结构中某个字段有修改,所有使用到当前数据库字段的地方都需要修改(特别是通过......
  • RedissonLock 使用场景以及优缺点分析
    RedissonLock是Redisson库提供的一种基于Redis实现的分布式锁。以下是如何使用RedissonLock以及其优缺点:使用RedissonLock:初始化Redisson客户端:Configconfig=newConfig();config.useSingleServer().setAddress("redis://localhost:6379");RedissonClientredisson......
  • Grpc的内部原理、优缺点
    gRPC是一个高性能、开源和通用的RPC框架,面向移动和HTTP/2设计。gRPC默认使用protocolbuffers,这是Google开源的一套成熟的结构数据序列化机制(也可使用其他数据格式如JSON)基于go的一种远程过程调用,RPC框架的目标就是让远程服务调用更加简单、透明,RPC框架负责屏蔽底......
  • 论POE供电技术和非POE供电技术的优缺点
    POE供电技术和非POE供电技术各有其优缺点,具体对比如下:  安装方面:POE供电技术通过一根以太网电缆传输数据和供电,可以减少电源线和插座的需求,使得设备的安装更加简便和经济。而非POE供电则需要为每个设备安装独立的电源插座和电缆,布线成本较高,安装过程可能较为复杂。  灵活性......
  • POE供电技术和非POE供电技术的优缺点
    POE供电技术和非POE供电技术各有其优缺点,具体对比如下:   安装方面:POE供电技术通过一根以太网电缆传输数据和供电,可以减少电源线和插座的需求,使得设备的安装更加简便和经济。而非POE供电则需要为每个设备安装独立的电源插座和电缆,布线成本较高,安装过程可能较为复杂。   灵......
  • 保护信息隐私的重要步骤
     导语:在当今信息时代,数据安全和隐私保护成为许多组织和个人关注的焦点。数据脱敏作为一种常用的数据保护方法,旨在保护敏感信息的安全性。本文将介绍数据脱敏的概念、常见的脱敏方法以及操作建议,以帮助读者更好地保护数据隐私。一、数据脱敏的概念  数据脱敏是指通过对......
  • 全球隐私计算技术发展概览
    PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。目前,数字经济正面临着一个巨大的问题。一方面个人数据处理能力的指数级增长创造了一系列前所未有的可能性,人类可以通过人工智能获得非常有价......