订阅
纠错
加入自媒体

数据治理之数据脱敏技术研究

2020-08-14 09:50
EAWorld
关注

前言:

在数据经济时代数据要素已经成为了企业重要资产,对于企业不同的业务部门来说,每时每刻不在通过共享数据方式进行业务协作。一些企业会将大量的敏感客户数据、订单数据拷贝到开发、测试、数据分析环境,但并没有采取任何对数据脱敏的措施。这将面临重大的监管及数据泄露风险。为了保证数据在企业内外部依法依规使用,需要相应的数据脱敏技术来实现对敏感数据的保护。

目录:

1.为什么需要对数据进行脱敏

2.数据脱敏定义及分类

3.数据脱敏核心算法

4.数据脱敏工具技术架构设计

5.数据脱敏技术的实现

1.为什么需要对数据进行脱敏

为了便于市场研究人员和数据挖掘人员利用客户信息、订单数据来分析客户购买行为,需要提供一个与生产环境数据真实性相近的数据,进行数据建模测试新分析算法或功能,同时IT人员测试、修补程序也需要将生产数据复制到测试和开发环境中,以便进行程序的测试。因此一些企业会将大量的敏感客户数据、订单数据拷贝到开发、测试、数据分析环境,但并没有采取任何对数据脱敏的措施。

据安全情报供应商Risk Based Security (RBS) 的2019年Q3季度的报告,2019年1月1日至2019年9月30日,全球披露的数据泄露事件有5183起,泄露的数据量达到了79.95亿条记录!从数据泄露事件数量来看,整体呈现出递增趋势,其中2019年泄露事件(5183)比2018年(3886)上涨33.3%。2019年泄露记录数量(37.66亿)比2018年(79.95亿)上涨112%。

从政策法规方面无论是欧盟的GDPR法案还是国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》,都有明确对个人隐私信息的保存、使用的规定和处罚措施。欧盟在2018年出台《通用数据保护条例》(GDPR),规定了企业如何收集、使用和处理欧盟公民的个人数据。2019年5月28日,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》中,明确要求对于个人信息的保存和提供要经过匿名化处理,以切实降低在数据应用中个人信息可能存在的泄露风险。

2.数据脱敏定义及分类

百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 从个人理解来说,数据脱敏就是为原始数据创建结构类似但不真实的数据的方法,以便将数据在开发、测试、培训、分析等非生产环境下的使用。

在数据脱敏中只是改变数据值但数据的格式和原始数据保持一致,需要注意的是原始数据不能探测到或者经过转换还原出原始数据。数据脱敏将被广泛应用于遵守政策、法规需求、防止数据泄露、防止数据被意外接触等方面。数据脱敏工具通过将真实敏感数据按照数据脱敏规则进行转换、处理,去除敏感信息,从而帮助组织实现生产数据的依法依规共享。

数据脱敏可以通过各种不同的方法进行实现,但是这些方法都必须遵循数据脱敏的五项基本原则。1)防逆向破解原则无论采用哪种脱敏方法,都不能够通过破解方法获取到原始敏感数据。2)表征原始数据原则脱敏后数据要保持一定的真实性以便数据能够应用开发、测试、分析的环境。例如对姓名处理,脱敏后形式类似王*凯,而不能采用随意的值来替换姓名。3)引用完整性原则经过脱敏后数据要保持引用完整性,例如对银行卡号进行脱敏处理(银行卡号是一个主键)所有引用了银行卡号信息的实体,经过脱敏处理后要能够关联到一起。4)防数据推理原则数据脱敏不需要将所有的数据进行脱敏处理,只处理被定义为敏感数据内容。但需要注意的是有些非敏感数据能够被用来重新生成敏感数据或者能够回溯到敏感数据,这些非敏感数据同样需要进行脱敏处理。5) 自动化原则针对一个数据源只需要配置一次,就可以重复进行脱敏处理。开发和测试环境的数据需要能够及时反映生产数据的变化。分析数据也需要每天甚至每小时来生成。如果不是通过自动化的方式进行,那么数据脱敏就是一个低效且耗费成本的工作。

3.数据脱敏核心算法

常用的脱敏有混淆、替换、置空、加密:混淆算法:打乱现有数据的位置,使数据不再表示其原有的含义。可以使用java的Collection类对数据内容的ArrayList进行顺序打乱,经实际试验效果不太好,无法保证数据项顺序和原来顺序完全不一致。任意替换:替换敏感数据的内容,使数据看上去和原始数据类似,但实际上两者没有任何关联。常用于姓名替换、数值替换、日期替换及卡号替换等。置空算法:删除敏感数据将其置空。数据加密:敏感数据进行加密处理,加密后的数据与原始数据差异较大。可以使用的数据脱敏算法包括:MD5加密、AES对称加密、FPE格式保留加密等方法。

4.数据脱敏工具技术架构设计

数据脱敏类型可以分为静态脱敏和动态脱敏:静态数据脱敏(SDM),是数据存储时脱敏,存储的是脱敏数据。一般用在非生产环境,如开发、测试、外包和数据分析等环境。动态数据脱敏(DDM),在数据使用时脱敏,存储的是明文数据或直接存储密文。一般用在生产环境,动态脱敏可以实现不同用户拥有不同的脱敏策略。其总体技术架构如下:

数据治理之数据脱敏技术研究

数据脱敏技术架构整体可以划分为管理端、执行端。执行端又分为静态脱敏执行端和动态脱敏执行端。管理端负责数据源维护、敏感数据扫描规则配置、数据脱敏规则配置、脱敏任务管理、日志查看、扫描结果查看等核心功能。数据脱敏执行端(Excecutor)负责处理具体脱敏工作,按照管理端数据源、脱敏规则配置,进行脱敏任务执行。静态数据脱敏是比较常见的脱敏任务,也有很多常见的开源工具能够实现数据的静态脱敏。比如DataX工具。动态脱敏技术,通常是基于数据库中间件技术来实现的,这里可以采用了Apache ShardingSphere 生态圈中的 ShardingSphere-JDBC来实现。

1  2  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

云计算 猎头职位 更多
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号