什么是脱敏报告文件?

什么是数据脱敏 ?先来看看什么是数据脱敏?数据脱敏也叫数据的去隐私化,在我们给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的环境下使用。像政府、医疗行业、金融机构、移动运营商是比较早开始应用数据脱敏的,因为他们所掌握的都是用户最核心的私密数据,如果泄露后果是不可估量的。数据脱敏的应用在生活中是比较常见的,比如我们在淘宝买东西订单详情中,商家账户信息会被用 * 遮挡,保障了商户隐私不泄露,这就是一种数据脱敏方式。淘宝详情数据脱敏又分为静态数据脱敏 (SDM)和 动态数据脱敏 (DDM)。静态数据脱敏静态数据脱敏 (SDM) :适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。有时我们可能需要将生产环境的数据 copy 到测试、开发库中,以此来排查问题或进行数据分析,但出于安全考虑又不能将敏感数据存储于非生产环境,此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。这样脱敏后的数据与生产环境隔离,满足业务需要的同时又保障了生产数据的安全。数据脱敏过程如上图所示,将用户的真实 姓名、手机号、身份证、银行卡号 通过 替换、无效化、乱序、对称加密 等方案进行脱敏改造。动态数据脱敏动态数据脱敏 (DDM) :一般用在生产环境,访问敏感数据时实时进行脱敏,因为有时在不同情况下对于同一敏感数据的读取,需要做不同级别的脱敏处理,例如:不同角色、不同权限所执行的脱敏方案会不同。注意 :在抹去数据中的敏感内容同时,也需要保持原有的数据特征、业务规则和数据关联性,保证我们在开发、测试以及数据分析类业务不会受到脱敏的影响,使脱敏前后的数据一致性和有效性。总之一句话:你爱怎么脱就怎么脱,别影响我使用就行。数据脱敏方案数据脱敏系统可以按照不同业务场景自行定义和编写脱敏规则,可以针对库表的某个敏感字段,进行数据的不落地脱敏。脱敏系统数据脱敏的方式有很多种,接下来以下图数据为准一个一个的演示每种方案。原始数据1、无效化无效化方案在处理待脱敏的数据时,通过对字段数据值进行截断、加密、隐藏 等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。截断方式比如我们将身份证号用 * 替换真实数字就变成了 “220724 ****** 3523”,非常简单。隐藏方式2、随机值随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。我们看到 name 和 idnumber 字段进行了随机化脱敏,而名字姓、氏随机化稍有特殊,需要有对应姓氏字典数据支持。随机值3、数据替换数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。数据替换4、对称加密对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。对称加密5、平均值平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。原始数据对价格字段 price 做平均值处理后,字段总金额不变,但脱敏后的字段值都在均值 60 附近。平均值6、偏移和取整这种方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据,在大数据分析场景中意义比较大。比如下边的日期字段create_time中 2020-12-08 15:12:25 变为 2018-01-02 15:00:00。取整数据脱敏规则在实际应用中往往都是多种方案配合使用,以此来达到更高的安全级别。总结无论是静态脱敏还是动态脱敏,其最终都是为了防止组织内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下从组织流出。所以作为一个程序员不泄露数据是最起码的操守。转载自:https://blog.csdn.net/u010517268/article/details/112864274
随着数据国家对数据安全的要求越来越高,对敏感数据处理变成了日益重要的一项工作或技能。那什么是数据脱敏呐?简而言之,就是将敏感数据(比如手机、银行卡号、身份证等)的敏感属性使用一系列的技术手段去处,防止敏感数据直接在不可靠的环境下使用。数据脱敏说起来很高大上,但实际上在日常生活中非常常见,例如在你输入密码的时候会用*进行遮挡,在使用支付宝转账时,会对姓名用*进行部分遮挡,这就是一种数据脱敏的方式。依据《金融数据安全 数据生命周期安全规范》(JR/T 0223-2021)中的规定,数据脱敏根据数据敏感的实时性和应用场景的不同,分为动态数据脱敏和静态数据脱敏。静态数据脱敏一般用在非生产环境,将敏感数据从生产环境抽取并脱敏后用于培训、分析、测试、开发等非生产 环境。静态数据脱敏旨在通过类似ETL技术的处理方式,按照脱敏规则一次性完成大批量数据的变形转换处理,静态脱敏示意图见图。静态脱敏通常会在将生产环境中的敏感数据交付至开发、测试或者外发环境时使用,在降低数据敏感程度的同时,能够最大程度上保留原始数据集所具备的数据内在关联性等可挖掘价值。 静态数据脱敏主要特点:a)适应性,即可为任意格式的敏感数据脱敏。b)一致性,即数据脱敏后保留原始数据字段格式和属性。c)复用性,即可重复使用数据脱敏规则和表则,通过定制数据隐私政策满足不同业务需求。动态数据脱敏一般用在生产环境,将敏感数据实时进行脱敏后用于应用访问等生产环境。动态数据脱敏旨在通过类似网络代理的中间件技术,按照脱敏规则对于外部申请访问的数据进行即时处理并返回脱敏后结果,动态脱敏示意图见图。动态脱敏通常会在数据对外提供查询服务的场景中使用,在降低数据敏感程度的同时,最大程度上降低了需求方获取脱敏后数据的延迟,请求实时产生的数据也能即时得到脱敏后结果。动态数据脱敏主要特点如下: a) 实时性,即能够实时地对用户访问的敏感数据进行动态脱敏、加密和提醒。b) 多平台,即通过定义好的数据脱敏策略实现平台间、不同应用程序或应用环境间的访问限制。 c) 可用性,即能够保证脱敏数据的完整,满足业务系统的数据需要。 数据脱敏应用场景数据脱敏的应用场景主要分为技术场景和业务场景,技术场景主要包括开发测试、数据分析、数据 科学研究、生产、数据交换、运维等场景,业务场景包括但不限于信贷风险评估、骗保识别、精准营销、 消费信贷等场景,常用数据脱敏应用场景。数据脱敏方法数据脱敏的方式有很多种,无效化、随机值、数据替换、对称加密、平均值、偏移和取整。无效化无效化方案在处理脱敏的数据时,通过对字段数据值截断、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用价值。一般采用特殊字符(*等)代替真值,这种隐藏敏感数据的方法简单,但缺点是用户无法得知原数据的格式,如果想要获取完整信息,要让用户授权查询。idnamemobileidnumberaddresscreate_time1张三13611111484220724********3845上海市嘉定区办公室2021-12-12 14:10:132李四13622221279220724********2345上海市黄浦区办公室2021-12-12 14:10:133张五13633339405220724********6543上海市浦东新区办公室2021-12-12 14:10:132. 随机值随机值替换,字母变为随机字母,数字变为随机数字,文字随机替换文字的方式来改变敏感数据,这种方案的优点在于可以在一定程度上保留原有数据的格式,往往这种方法用户不易察觉的。我们看到name和idnumber字段进行了随机化脱敏,而名字姓、氏随机化稍有特殊,需要有对应姓氏字典数据支持。idnamemobileidnumberaddresscreate_time1张三刘13611111484220724198004233845上海市嘉定区办公室2021-12-12 14:10:132李四青13622221279220724198000002345上海市黄浦区办公室2021-12-12 14:10:133我叫张五13633339405220724199000006543上海市浦东新区办公室2021-12-12 14:10:133. 数据替换数据替换与前边的无效化方式比较相似,不同的是这里不以特殊字符进行遮挡,而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。idnamemobileidnumberaddresscreate_time1张三刘13651300000220724198004233845上海市嘉定区办公室2021-12-12 14:10:132李四青13651300000220724198000002345上海市黄浦区办公室2021-12-12 14:10:133我叫张五13651300000220724199000006543上海市浦东新区办公室2021-12-12 14:10:134. 对称加密对称加密是一种特殊的可逆脱敏方法,通过加密密钥和算法对敏感数据进行加密,密文格式与原始数据在逻辑规则上一致,通过密钥解密可以恢复原始数据,要注意的就是密钥的安全性。idnamemobileidnumberaddresscreate_time1张三刘13651300000eashdben34b32g4上海市嘉定区办公室2021-12-12 14:10:132李四青13651300000ra738472hbfjkwb上海市黄浦区办公室2021-12-12 14:10:133我叫张五13651300000374hvbdjksdks上海市浦东新区办公室2021-12-12 14:10:135. 平均值平均值方案经常用在统计场景,针对数值型数据,我们先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。idnamemobileidnumberaddresspricecreate_time1张三刘13651300000eashdben34b32g4上海市嘉定区办公室40(原始:39)2021-12-12 14:10:132李四青13651300000ra738472hbfjkwb上海市黄浦区办公室50(原始:49)2021-12-12 14:10:133我叫张五13651300000374hvbdjksdks上海市浦东新区办公室60(原始:62)2021-12-12 14:10:136. 偏移和取整这种方式通过随机移位改变数字数据,偏移取整在保持了数据的安全性的同时保证了范围的大致真实性,比之前几种方案更接近真实数据,在大数据分析场景中意义比较大。idnamemobileidnumberaddresspricecreate_time1张三刘13651300000eashdben34b32g4上海市嘉定区办公室392020-12-08 15:00:002李四青13651300000ra738472hbfjkwb上海市黄浦区办公室492020-12-08 15:00:003我叫张五13651300000374hvbdjksdks上海市浦东新区办公室622020-12-08 15:00:00
数据脱敏是什么?数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。为什么要进行数据脱敏?数据泄露事件层出不穷,为保障数据安全,国家陆续颁布了《网络安全法》、《数据安全法》、《个人信息保护法》等。其中,《数据安全法》、《个人信息保护法》于2021年颁布并实施,这也标志着数据安全和数据利用进入合规阶段,数据处理活动已有法可依。《数据安全法》可以说是数据安全的基本法律,对数据处理活动进行了明确规范。一方面强调数据必须安全合规,另一方面,鼓励组织在合规基础上,开展数据利用活动。落实《数据安全法》,亟需新的数据安全技术和方案,尤其是兼顾数据安全和数据利用的方案,同时也亟需新的数据安全标准及评估方法。从政务云数据共享查询、金融行业开发/测试等实际场景需求现状来看,数据利用面临的挑战,包括脱敏质量无法保障、数据分发效率低、脱敏效率低、管理工作复杂等。合规增效的AnyBackup副本数据脱敏方案安华金和作为中国唯一入选Gartner数据脱敏领域的代表厂商,从2009年成立至今一直专注于数据安全领域,是中国“数据安全治理”体系框架的提出者和践行者。爱数携手安华金和,以AnyBackup副本数据管理技术联合脱敏技术,共同推出副本数据脱敏方案。即使面向海量数据,AnyBackup & 安华金和副本数据脱敏方案也可以实现高质量、高效率、低成本、易管理的数据供给,在合规的基础上,满足高质量、高效率、低成本、易管理的数据利用需求。高质量:原生数据格式,保障数据一致性、高仿真性等,满足数据利用需求;高效率:高效的数据分发,整体时间成本下降 50% 以上;低成本:虚克隆技术,大幅降低数据利用总体成本;易管理:自动化数据管理,减少 95% 的人工成本。AnyBackup副本数据脱敏方案,基于原生数据格式捕获和永久增量技术,将生产数据以原生格式拷贝到基础卷,形成黄金副本,对黄金副本进行快照产生时间点。当业务人员申请数据时,可基于虚克隆技术生成虚拟副本,挂载到恢复服务器,再通过不同的脱敏规则,对副本数据进行脱敏处理,脱敏后的数据可进行快照形成脱敏副本库。在审核人员审批通过后,可基于虚克隆技术对副本库中的脱敏数据再次进行分发,从而满足开发测试、大数据分析、数据外发等多种场景下的数据利用需求。相关专家表示,通过CDM副本管理技术解决生产库侵入和消除数据一致性的问题,是一种全新的脱敏建设思路,在国内外都属于技术创新,通过生产库与脱敏库隔离,能最大限度保护生产环境。自动编排技术可以大幅度减少脱敏过程中的人工干预,减少人为因素带来的错误。这些对于降低脱敏成本、提高脱敏质量有很大的益处。目前在政务和金融领域,成本是制约脱敏产业快速发展的一个瓶颈,希望副本数据脱敏方案能帮助产业解决这个问题。

我要回帖

更多关于 静态脱敏 的文章