首页 > 其他分享 >深度发现:数据智能之路

深度发现:数据智能之路

时间:2023-06-13 17:03:30浏览次数:31  
标签:发现 智能 隐私 全息 深度 敏感数据 数据

本文译自博文《Discovery-In-Depth: The Path To Data Intelligence》By莎拉·霍斯佩尔霍恩。

深度发现:数据智能之路_数据

数据发现是所有数据管理的基本要素:从网络安全到数据隐私再到数据治理。数据发现是数据智能、洞察力和分析的核心——既需要可扩展性也需要自动化才能成功处理机构收集的各种类型的大量数据。

有效的(和可持续的)隐私、安全和治理计划需要深度发现:使机构不只是限于对数据表面的理解。这意味着不仅可以更准确地发现和识别更多类型的敏感数据和个人数据,而且能够将上下文、洞察力和判断力应用于这些数据——这将有助于为政策制定和防护措施提供信息支撑。

仅能够识别正则表达式和常见类型的敏感数据(如信用卡号或身份证)已经不够了,CCPA 和 GDPR 等隐私法规已经改变了个人数据的定义——将其扩展到更广泛的数据集,涉及到地理位置、昵称、在线活动等信息。

与早期的法规不同,如今的数据隐私计划侧重于与个人相关的数据,这意味着数据发现解决方案不仅需要能够按类型识别个人数据,还需要从上下文线索和与其他数据点的关系中识别个人数据。此外,机构现在不仅负责保护这些数据,还负责监控和报告数据是谁的,来自哪里以及去向。

围绕隐私的数据发现是数据隐私安全和网络安全的必要条件,需要多管齐下的策略来识别机构中所有类型的敏感数据和个人数据——这个策略就是从深度发现开始。

深度发现:数据智能之路_敏感数据_02


深度发现:它是如何运作的

BigID 利用深度发现来提供深度数据智能,结合多种发现模式和敏感数据周围的上下文。通过应用机器学习和相关性,机构可以更准确地识别个人和敏感数据,并且可以理解数据上下文和关系(而不是孤立地观察一个数据点)。

深度发现方法的第一层是能够通过正则表达式 (RegEx) 发现和识别敏感数据:这些通常是定义特定模式的字符序列。这是一种围绕模式匹配并了解您要查找的敏感数据的确切格式的技术:从银行帐号到电子邮件地址格式再到 ID 号的传统标识符。 BigID 在这种方法的基础上更进一步,包括常见的安全属性,如显式密码、加密私钥、安全令牌等。

下一层更广泛:发现传统上更难以定义的个人信息 (PI),如出生日期、投票趋势、名字、姓氏、居住地等信息。机器学习技术和基于上下文的分类器能够发现此类数据——发现和清点更广泛的个人和敏感数据集。

最重要的是,深度数据发现需要一种基于身份和实体的方法:揭示数据关系、身份、推断数据和关联数据。通过增加相关性,组织不仅能够发现暗数据,而且能够揭示敏感数据之间的关系——推断新的数据属性并将可见性扩展到他们收集的所有敏感数据和个人数据。

如何实现深度发现

BigID 通过 4 C实现深度发现:目录(Catalog)、分类(Classification)、聚类分析(Cluster analysis)和关联(Correlation)——所有这些都以隐私为中心协同工作,围绕个人和敏感数据获取丰富的上下文,实现无与伦比的数据发现。

● 目录:通过深入的数据洞察,结合活跃元数据和分类,自动编目并映射敏感数据和个人数据,获得更近一步的隐私、安全性和业务洞察力。

● 分类:按类型、身份、属性、模式、目录和策略对数据进行分类。 BigID 超越正则表达式(RegEx),应用不同层面的分类,识别和分析更多的属性。

● 聚类分析:利用聚类分析快速准确地识别文件内容和类型,并标记数据集用于策略的制定和执行。聚类分析是一种机器学习技术,能以结构化的方式处理大批量的非结构化数据。

● 相关性:将上下文添加到数据分类以及数据点之间的表面关系中,构建身份及其画像,关联数据是谁的,并透视数据是如何跨数据源互连的。

BigID赋能组织机构了解他们的数据,并将隐私、保护和洞察施予这些数据。深度发现方法提供了对敏感数据的 360° 可见性,以及覆盖所有数据类型、所有数据源的数据智能化。

作为流动数据全息可视化的引领者,全息网御始终坚持数据深度识别的原则,提出了“网络全息图”的概念,基于时间维度之上,把数据与其使用者、应用系统及操作设备进行深度关联,挖掘数据基因,展示数据之间相互全息的对应内在关联。

深度发现:数据智能之路_敏感数据_03


在数字空间一切数据活动都具有时空四维全息性,围绕数据活动全生命周期,数据链路上的所有过程、时间与空间,都存在着相互全息的对应关系;每一部分中都包含着其它部分,同时它又被包含在其它部分之中。“数据影像”的立体感不是全息唯一的特殊之处,“数据全息图”中的每一小部分都包含着整个数据活动的完整影像。如果把某个由全息相片式结构组成的数据活动“解剖”开来,我们不会得到部分,而会得到较小的整体。

本质上,全息网御提出的数据全息关联是几何意义上的多维度,全息关联为我们观察数据要素世界引出一个全新的视角,经历一番思考,你会发现,原来在数字的世界里竟是这样的:“世界”的每个局部似乎都包含了整个“世界”!

标签:发现,智能,隐私,全息,深度,敏感数据,数据
From: https://blog.51cto.com/u_14875961/6471596

相关文章

  • 数据管理,让每台设备健康运转,光伏网关为您全情呵护!
    “双碳”目标下,光伏发电,不排碳不吸碳,必将是国家重点支持的朝阳产业,未来十年国家将大力促进行业发展,重塑能源体系。在近年来出台了一系列政策,例如分时电价实施,提倡增量配网改革,促使分布式光伏的屋顶储能,成为新增主力。农村屋顶光伏和工商业企业屋顶光伏,这两类分布式光伏电站在今年都......
  • 442.数组中重复的数据 (Medium)
    问题描述442.数组中重复的数据(Medium)给你一个长度为n的整数数组nums,其中nums的所有整数都在范围[1,n]内,且每个整数出现一次或两次。请你找出所有出现两次的整数,并以数组形式返回。你必须设计并实现一个时间复杂度为O(n)且仅使用常量额外空间的算法解决此......
  • 在EasyCVR新版本v3.3中,如何正确接入智能分析网关V2?
    EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等,能对外分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。智能分析网关是我们的AI边缘计算硬件,其中,V1的基础算......
  • 采集数据网关产品,让您的智慧生产更有力!
    导读工业大数据是未来工业在市场竞争中发挥优势的关键,实现中国制造2025,需要工业生产的高度自动化,而不论智能制造发展到何种程度,数据采集都是工业生产中基本的条件。工业数据采集是智能制造和工业物联网的基础和先决条件,后续的数据分析处理依赖于前端的感知。然而有多少工业制造企业......
  • 经纬恒润智能座舱产品系列——音乐律动氛围灯
        随着经济发展,消费者越来越追求精神层面的享受。在行车期间,也希望自己的爱车能够提供更佳的视听体验及更多的情绪价值。而在汽车座舱的众多体验感知中,“灯光与音乐”对于乘坐者来说是非常重要的情绪输出部分。基于此,经纬恒润特研发推出了新的座舱产品——音乐律动氛围灯......
  • SQLServer低版本附加高版本的数据库常用处理方法
    SqlServer低版本数据库不能直接还原或附加Sql高版本数据库或备份文件,我们常用DTS互导的方式,如果不同版本数据库不可访问,可以使用高版本数据库的DTS导出整个库的相应低版本建库脚本与数据,然后放在低版本数据库中去执行,常见如:我们库数据库一般是SqlServer2008+,有的客户使用的是2005版......
  • 洞察丨挖掘游戏行为数据价值的 6 个新思路
    现阶段,游戏赛道越来越难,主要表现在玩家对游戏质量的要求提高、游戏立项选择空间变小、游戏买量越来越贵且回本周期越来越长……与此同时,游戏出海势头依然强劲,难以突破重围。可以说,几乎所有的游戏都在尽可能地朝着长线运营的方向发展,通过数据产生的价值不断调整产品和运营方向就变得......
  • PLC数据采集在农业机械智慧运维中的作用
    随着智慧农业的持续推进,农机自动化已经成为推进农业规模化、智能化生产的重要动能,可以高效地解决生产中的各种问题,实现各生产要素的优化配置。PLC应用在农业机械中能够实现自动操作,极大地降低了农业生产的劳动强度,提高了农业生产的效率,助力农业的信息化、精细化管理。 通过PLC数据......
  • C#连接MySql数据库的方法
     用MySQLDriverCS连接MySQL数据库   先下载和安装MySQLDriverCS,地址:   http://sourceforge.net/projects/mysqldrivercs/   在安装文件夹下面找到MySQLDriver.dll,然后将MySQLDriver.dll添加引用到项目中   注:我下载的是版本是MySQLDriverCS-n-EasyQueryTools-4.0......
  • 基于.NET的Web Service技术的分布式异构数据库的集成
    摘要:本文分析了WebService的特点,提出了一种基于Microsoft.NET的WebService技术访问分布异构数据库的体系结构,并采用.NET技术实现了原型系统。在原型系统中,使用WebService将分布于Internet上的不同的数据库系统中的数据集成,向访问数据库的应用程序提供统一的数据操作接口,实现......