一、数据安全治理概述
1、什么是数据安全
数据安全是数据的质量属性,其目标是保障数据资产的保密性(Confidentiality)、完整性(Integrity)和可用性(Availability),简称CIA,也被称为数据安全三要素模型。数据安全三要素模型可帮助企业保护其敏感数据免受未经授权的访问和数据泄露。
1.1、保密性
数据保密性又称数据机密性,是指个人或组织的信息不为不应获得者获得,确保只有授权人员才能访问数据。
1.2、完整性
数据完整性是指在传输、存储或使用数据的过程中,保障数据不被篡改或在被篡改后能够迅速被发现,从而确保信息可靠且准确。
1.3、可用性
数据可用性是一种以使用者为中心的设计概念,指确保数据既可用又可访问,以满足业务需求。
2、数据安全脆弱性
类型 | 对象 | 数据安全脆弱性 |
---|---|---|
管理方面 | 管理目标 | 企业数据管理的总纲中不包含数据安全目标及相关内容的说明,或没有成文的,经过专业部门制定、审核、发布的数据安全管理总纲 |
组织人员 | 未建立数据安全治理组织机构并形成数据安全管理机制 | |
未指定数据安全管理员或明确数据安全相关的岗位,并定义相关岗位的职责 | ||
缺乏对数据安全相关人员的数据安全意识教育和岗位技能培训 | ||
未将数据安全相关岗位纳入绩效考核 | ||
制度流程 | 缺乏数据安全管理流程和制度体系的监测 | |
未建立数据审计制度来定期对数据日志进行数据安全方面的审计 | ||
未建立数据加密制度来对相关的结构化数据、半结构化数据和非结构化数据进行加密 | ||
未建立数据脱敏制度来对敏感数据进行脱敏处理 | ||
未建立数据的申请和使用规范 | ||
未建立从数据安全风险评估到数据安全改进的闭环管理体系 | ||
未建立数据的备份和恢复策略 | ||
未建立数据安全的应急预案 | ||
管理方面 | 操作系统 | 一般通过专业机构或软件进行评测,以检查操作系统的漏洞、防火墙、网络访问控制(NAC)、防病毒软件安装等是否存在安全风险 |
数据库 | 数据库是否存在安全漏洞 | |
未对数据库进行全量或增量备份 | ||
数据库口令薄弱或长时间未修改数据库口令 | ||
应用程序 | 未识别敏感数据并对数据进行分类、分级管理 | |
缺乏对敏感数据的访问控制策略 | ||
数据在使用、传输、共享过程中未脱敏 | ||
未对敏感数据进行加密存储 | ||
未提供数据安全审计功能,无法进行数据安全审计 |
3、数据安全风险来自哪里
3.1、有目标性攻击的外部人员
3.2、第三方
3.3、恶意的内部人员
3.4、操作失误的内部人员
二、数据安全治理策略
1、数据安全治理体系
企业数据安全治理体系主要包含以下五部分,保证数据的全生命周期的可用性、完整性、保密性以及合规使用。
1.1 数据安全治理目标
重点强调安全目标与业务目标的一致性。数据安全治理的目标是保证数据的安全性, 确保数据的合规使用,为业务目标的实现保驾护航
1.2 数据安全管理体系
主要包括组织与人员、数据安全认责策略、数据安全管理制度等
1.3 数据安全技术体系
主要包括数据全生命周期的敏感数据识别、数据分类与分级、数据访问控制、数据安全审计等
1.4 数据安全运维体系
主要包括定期稽核策略、动态防护策略、数据备份策略、数据安全培训等
1.5数据安全基础设施
重点强调数据所在主机的物理安全和网络安全
在数据安全治理体系架构中,数据安全策略是核心,数据安全管理体系是基础,数据安全技术体系为支撑,数据安全运维体系是应用。数据安全策略通过管理体系制定,通过技术体系创建,通过安全运维体系执行。
2、数据安全治理制度
-
数据使用者
-
数据所有者
-
数据生产者
-
数据管理者
三、数据接入方式
1、syslog
1.1、简介
514端口
在Unix类操作系统上,syslog广泛应用于系统日志。syslog日志消息既可以记录在本地文件中,也可以通过网络发送到接收syslog的服务器。接收syslog的服务器可以对多个设备的syslog消息进行统一的存储,或者解析其中的内容做相应的处理。常见的应用场景是网络管理工具、安全管理系统、日志审计系统。
完整的syslog日志中包含产生日志的程序模块(Facility)、严重性(Severity或 Level)、时间、主机名或IP、进程名、进程ID和正文。在Unix类操作系统上,能够按Facility和Severity的组合来决定什么样的日志消息是否需要记录,记录到什么地方,是否需要发送到一个接收syslog的服务器等。由于syslog简单而灵活的特性,syslog不再仅限于 Unix类主机的日志记录,任何需要记录和发送日志的场景,都可能会使用syslog。
1.2、格式
<30>Oct 9 22:33:20 hlfedora auditd[1787]: The audit daemon is exiting.
其中“<30>”是PRI部分,“Oct 9 22:33:20 hlfedora”是HEADER部分,“auditd[1787]: The audit daemon is exiting.”是MSG部分。
1.3、流程
-
应用程序或系统组件生成日志消息,该消息包括消息的优先级、时间戳和其他元数据。
-
操作系统内核或应用程序将消息发送到syslog守护进程(syslogd或rsyslogd),该进程运行在操作系统的后台中。
-
syslog守护进程根据配置将消息写入到指定的目标位置,例如本地磁盘文件、远程syslog服务器或标准输出(stdout)。
-
如果消息被写入到本地磁盘文件,则日志文件将按照预定义的大小和保留时间进行轮换,以避免文件过大和日志文件满后的覆盖。
-
远程syslog服务器可以接收来自多个客户端的syslog消息,并将它们聚合到一个集中的位置进行存储和分析。
-
对于安全和故障排除的目的,syslog消息可以被配置为在系统内部进行加密和身份验证。
2、Kafka
Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。既然是消息队列,那么Kafka
也就拥有消息队列的相应的特性了。
2.1、概念
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。
2.2、产生背景
当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战:
如何收集这些巨大的信息
如何分析它
如何及时做到如上两点
以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)(处理分析)这些信息,而在生产者与消费者之间,需要一个沟通两者的桥梁-消息系统。从一个微观层面来说,这种需求也可理解为不同的系统之间如何传递消息。
2.3、应用场景
-
日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。
-
消息系统:解耦和生产者和消费者、缓存消息等。
-
用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
-
运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。
-
流式处理:比如spark streaming和storm
-
事件源
四、名词解释
数据降噪
数据降噪是一种处理数据中存在的噪声或异常值的方法,以提高数据的质量和准确性。噪声通常指不可避免地混入数据中的随机或异常值,这些值可能是由于传感器误差、通信中断、数据录入错误或其他原因引起的。
1、分箱法
将需要处理的数据根据一定的规则放进箱子里,然后测试每一个箱子的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。
2、回归法
利用了函数的数据进行绘制图像,然后对图像进行光滑处理。
2.1、单线性回归
找出两个属性的最佳直线,能够从一个属性预测另一个属性
2.2、多线性回归
找到很多个属性,从而将 数据拟合到一个多维面,这样就能够消除噪声。
3、聚类法
将抽象的对象进行集合分组,成为不同的集合,找到在集合以外的孤点,这些孤点就是噪声。
数据脱敏
1、概念
数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的环境下使用。
2、分类
2.1、静态数据脱敏(SDM)
-
常用场景
-
非实时场景,将生产环境中的数据脱敏用于测试环境。
-
-
步骤
-
数据选择/策略配置:选择待脱敏的数据库及表,配置脱敏策略及脱敏算法,生成脱敏任务;
-
执行脱敏处理:对不同类型数据进行处理,将数据中的敏感信息进行删除或隐藏;
-
数据导出:将脱敏后的数据按用户需求,装载至不同环境中,包括文件至文件,文件至数据库,数据库至数据库,数据库至文件等多种装载方式。
-
2.2、动态数据脱敏(DDM)
-
常用场景
-
实时场景,适用于对生产数据共享或时效性很高的数据访问场景等
-
-
步骤
-
协议解析:解析用户、应用访问大数据组件网络流量;
-
语法解析:对访问大数据组件的语句进行语法分析;
-
脱敏规则匹配:根据用户身份信息及要访问的数据;
-
下发脱敏任务:由脱敏引擎调度脱敏任务;
-
脱敏结果输出:将脱敏后的数据输出,保证原始数据的不可见。
-
3、流程
4、常用算法
-
固定映射
-
随机映射
-
遮盖
-
范围内随机
-
保留随机
-
浮动
-
归零
-
截取
数据防勒索
数据防勒索(Anti-Ransomware)是一种数据安全措施,用于防止恶意软件攻击中的勒索软件(Ransomware)对数据进行加密和要求赎金的行为。勒索软件是一种恶意软件,它会在受害者的计算机上加密用户的数据,然后要求支付赎金以获取解密密钥。如果未支付赎金,则数据可能会被永久性损坏或丢失。
为了防止勒索软件攻击,数据防勒索解决方案通常包括以下措施:
-
实时监测和检测:通过实时监测文件系统、网络流量、进程和系统活动来检测潜在的勒索软件攻击,并在检测到攻击时立即采取措施。
-
恢复和备份:备份重要数据,并建立恢复计划,以便在受到攻击时能够快速恢复数据。
-
强化安全性:实施最佳安全实践,例如更新系统和应用程序,强化访问控制和密码策略,限制管理员权限等。
-
用户教育:提高用户对勒索软件攻击的意识,教育用户避免打开未知的邮件附件、链接或下载来自不可信来源的软件等。
总之,数据防勒索是一个综合性的措施,它需要多个方面的努力来确保数据的安全性和可用性。
数据追踪溯源
数据追踪溯源(Data Traceability)是指在数据生命周期中跟踪和记录数据的来源、流向和处理方式,以便于在发生问题或安全事件时对数据进行追踪和调查。通过加密、屏蔽、水印等技术,对敏感数据进行变换或隐藏,防止其在传输或存储过程中被窃取或泄露。数据追踪溯源是数据管理和安全的重要组成部分,它有助于保证数据的完整性、可信性和合规性。
数据追踪溯源通常包括以下方面:
-
数据来源和传输:记录数据的来源和传输过程,包括数据输入、输出、传输和存储的所有节点。
-
数据加工和转换:记录数据的加工和转换过程,包括数据清洗、转换、聚合和计算等处理过程。
-
数据审计和监控:定期审计和监控数据的流向和处理过程,以便发现异常或不符合规定的行为。
-
数据备份和恢复:备份重要数据,并建立恢复计划,以确保数据在意外损坏或灾难发生时可以快速恢复。
通过数据追踪溯源,可以帮助企业和组织确保数据的可信性、完整性和合规性,并能够快速响应安全事件和数据泄露等问题。
数据屏蔽技术
数据屏蔽技术是一种保护敏感数据的方法,它通过在数据中删除或替换敏感信息来减少数据泄露和安全风险。屏蔽技术通常应用于需要共享或传输敏感数据的场景,如医疗保健、金融、法律等领域。
数据屏蔽技术的实现方式包括以下几种:
-
数据脱敏:将敏感数据替换为模板或虚假数据,以保护数据的隐私性。
-
数据加密:将敏感数据加密后存储或传输,只有授权用户才能解密和访问数据。
-
数据匿名化:将数据中的个人身份信息去除,例如姓名、身份证号码等,使得数据无法识别出特定个人的身份信息。
-
数据分区:将数据分成多个部分,每个部分授权给不同的用户或组织,以限制对敏感数据的访问。
数据屏蔽技术可以帮助企业保护敏感数据,并遵守数据保护法规和标准,如GDPR(欧盟通用数据保护条例)和HIPAA(美国医疗保健信息可移植性和账户法案)。
数据销毁
数据销毁是一种通过安全地删除或销毁数据来保护敏感信息的方法。数据销毁可以在硬件或软件层面上实现,以确保数据不被恶意攻击者或非授权人员访问。
在硬件层面,数据销毁通常通过物理破坏存储介质(如磁盘、磁带、USB闪存驱动器等)来完成。这可以通过使用磁盘破碎机、磁带销毁机等设备来实现,以确保数据无法被恢复。对于存储在云服务器上的数据,数据销毁可以通过对物理服务器进行安全清除、加密和破坏来实现。
在软件层面,数据销毁通常是通过使用特定的数据销毁工具来完成。这些工具可以完全删除存储设备上的数据,确保数据不被恢复。有许多数据销毁软件可供选择,其中一些软件还提供多种数据销毁标准(如DoD、NIST、NSA等)。
数据销毁非常重要,因为如果敏感数据没有被安全地销毁,它可能会被恶意攻击者、竞争对手或其他人员利用,导致数据泄露、身份盗窃和其他安全问题。同时,一些数据保护法规和标准也要求企业和组织在数据处理结束后对数据进行销毁,以保护用户隐私和数据安全。
敏感数据识别
敏感数据识别是指使用各种技术和算法来识别和分类敏感数据的过程。敏感数据通常指包含个人身份信息、财务信息、医疗信息和其他私人信息的数据,这些数据需要得到特别保护,以防止未经授权的访问和泄露。
敏感数据识别可以通过各种技术实现。以下是一些常见的敏感数据识别方法:
-
规则匹配:使用预定义的规则或模式来识别敏感数据,如社会安全号码(SSN)、信用卡号码等。
-
机器学习:使用监督学习、无监督学习或半监督学习算法来训练模型以识别和分类敏感数据。
-
自然语言处理(NLP):使用NLP技术来分析和理解文本中的含义和语法,以识别敏感信息。
-
深度学习:使用深度神经网络模型来学习和分类敏感数据。
敏感数据识别可以应用于各种领域,如数据安全、隐私保护和合规性等。在实际应用中,敏感数据识别可以帮助用户更好地理解和保护敏感数据,减少数据泄露和安全问题的风险。
数据库审计
数据库审计是指对数据库操作进行记录、检查和分析的过程,以确保数据库的合规性、安全性和可靠性。数据库审计可以记录数据库的操作历史,包括对数据的访问、修改、删除和创建等操作,以便跟踪和识别任何异常或非法的数据库操作。
数据库审计可以应用于各种数据库管理系统,如关系型数据库管理系统(RDBMS)和非关系型数据库管理系统(NoSQL)。以下是一些常见的数据库审计技术:
-
触发器:在数据库中创建触发器来记录数据库的操作历史,如插入、更新和删除等操作。
-
日志审计:启用数据库的日志功能,记录所有的数据库操作,通过日志分析工具来识别和分析异常操作。
-
审计策略:定义和实施审计策略,如访问控制、审计规则和报告生成等,以确保数据库的合规性和安全性。
-
审计工具:使用各种数据库审计工具来自动记录、分析和报告数据库操作历史,以提高审计效率和精度。
数据库审计可以帮助用户更好地了解和保护数据库的操作历史,从而提高数据库的安全性和可靠性。它也是各种合规性标准的重要要求,如PCI DSS、HIPAA和SOX等。
接口安全监测
接口安全监测是指对系统接口进行实时监测和检测的过程,以发现和预防接口安全问题。接口是不同系统之间进行数据交换和通信的桥梁,是系统安全的薄弱环节之一,接口安全监测旨在防止接口被滥用、被攻击或被篡改。
接口安全监测可以通过以下方式实现:
-
漏洞扫描:使用各种漏洞扫描工具对系统接口进行扫描,发现已知的安全漏洞和弱点,以及其他安全问题。
-
流量分析:使用流量分析工具对接口的数据流量进行分析,以检测和预防恶意流量和攻击。
-
策略检查:对接口的访问控制策略进行检查,如授权、认证和访问限制等,以确保接口的访问安全性。
-
安全日志监测:监测接口的安全日志,记录和分析所有接口操作,以识别和预防异常或非法的操作。
-
行为分析:使用行为分析技术来检测和识别异常的接口访问行为,如频繁的访问、异常的访问来源和数据量等。
接口安全监测可以帮助用户更好地了解和保护系统接口,防止接口被滥用、被攻击或被篡改,从而提高系统的安全性和可靠性。它也是各种合规性标准的重要要求,如PCI DSS、HIPAA和SOX等。
数据流动测绘
数据流动测绘(Data Flow Mapping)是一种信息安全管理工具,用于识别和评估组织中数据的流动路径。它是一种技术和过程的组合,可以帮助组织发现数据的流动路径,以及数据在组织中的使用、存储和传输方式。
数据流动测绘的过程通常包括以下步骤:
-
确定要评估的数据:识别关键数据,包括个人身份信息、财务信息、知识产权、公司机密等。
-
识别数据的来源和去向:确定数据从哪里来,去向何处,以及它们在组织中的流动路径。
-
评估数据的流动方式:了解数据在组织中是如何使用、存储和传输的。这可能涉及到了解组织中使用的IT系统、网络架构和安全措施等方面的细节。
-
识别数据流动中的风险:识别可能导致数据泄露、滥用或损坏的风险。
-
采取措施降低风险:根据风险评估结果,采取措施来降低数据泄露、滥用或损坏的风险,包括加密数据、限制数据访问权限、实施访问监控等。
数据流动测绘是一项重要的安全管理工具,它可以帮助组织发现数据的潜在风险和漏洞,并采取适当的措施来降低风险,从而提高组织的信息安全水平。
数据安全交换
数据安全交换(Secure Data Exchange)是指在不同组织或系统之间安全地共享敏感数据的过程。在进行数据交换时,保护数据的机密性、完整性和可用性非常重要。数据安全交换通常需要采用加密、身份验证、访问控制和审计等安全措施来保护数据不被未经授权的人员获取或篡改。
数据安全交换可以发生在不同的组织或系统之间,如公司之间的业务合作、医疗机构之间的医疗记录共享、金融机构之间的支付数据交换等等。由于这些数据可能包含个人身份信息、财务信息、知识产权等敏感信息,因此必须采取安全措施确保数据不被未经授权的人员获取或篡改。
为了实现数据安全交换,组织需要实施一系列的安全措施,例如:
-
加密数据:使用加密技术对数据进行加密,确保数据在传输过程中不会被窃听或篡改。
-
身份验证:对参与数据交换的人员进行身份验证,确保只有合法的用户才能访问数据。
-
访问控制:根据需要对数据进行访问控制,限制未经授权的人员访问数据。
-
审计和日志记录:记录数据交换的所有操作和事件,以便跟踪和审计数据的使用情况。
-
安全协议和标准:采用标准和协议来确保数据安全性,如SSL、SFTP、AS2等。
数据安全交换对于现代组织来说非常重要,它可以促进不同组织之间的合作,并确保敏感数据得到安全地共享。
API安全
API安全(API Security)是指保护应用程序编程接口(API)免受未经授权的访问、滥用和攻击的过程。API是应用程序和服务之间的桥梁,它们允许不同的系统进行数据交换和共享,但这也使得API成为攻击者攻击的目标。
以下是一些常见的API风险
-
数据未加密,报文明文传输
-
数据未加签验签
-
没有做Token认证
-
DDOS攻击
-
违规调用
-
不合法的参数
-
越权风险
API安全需要采取一系列的安全措施来保护API免受攻击。以下是一些常见的API安全措施:
-
身份验证和授权:确保API只能被经过身份验证的用户或应用程序访问,并使用授权机制限制用户的访问权限。
-
加密数据:使用加密技术对API传输的数据进行加密,确保数据在传输过程中不会被窃听或篡改。
-
输入验证和过滤:对API的输入进行验证和过滤,以防止恶意数据和攻击,例如SQL注入和跨站脚本攻击等。
-
访问控制:对API的访问进行访问控制和监控,限制未经授权的访问。
-
安全审计和日志记录:记录API的使用情况和操作记录,以便跟踪和审计API的使用情况。
-
API保护网关:使用API保护网关作为安全层,来保护API免受攻击,例如DOS攻击和恶意流量等。
-
持续安全检查:定期对API进行安全检查和漏洞扫描,及时发现并修补安全漏洞。
API安全是现代应用程序开发中非常重要的一部分,因为API可能成为攻击者攻击的目标。采取适当的安全措施来保护API的安全性,可以有效地减少攻击的风险,保护用户数据和组织的安全。
数据中台
中间层,介于前台和后台之间
a、中台
-
支付系统
-
用户管理
-
开发工具
-
基础设施
-
游戏引擎
-
数据分析
b、分类
-
业务中台
-
各个项目的共通业务进行下沉,整合成通用的服务平台
-
支付中心
-
商品中心
-
用户中心
-
交易中心
-
-
-
技术中台
-
向各个项目提供通用的底层框架、引擎、中间件
-
MQ
-
RPC框架
-
分布式事务
-
容器
-
-
-
数据中台
-
对各个项目进行各种数据的采集和分析
-
数据建模
-
日志分析
-
用户画像
-
-
c、能力
-
汇聚整合
-
提纯加工
-
服务可视化
-
价值变现
d、数据分类
1、按照数据组织形式
-
结构化数据:规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式与长度规范,常见的有数据库表、Excel等二维表。
-
半结构化数据:数据规则、完整,同样严格遵循数据格式与长度规范,但无法通过二维关系来表现,常见如JSON、XML等形式表达的复杂结构。
-
非结构化数据:数据结构不规则或不完整,不方便用二维逻辑表来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,如办公文档、图片、图像和音视频等。
2、按时效性和应用场景分
-
离线
-
实时