加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据基础课17 大数据环境下如何保护隐私

发布时间:2022-10-28 14:06:04 所属栏目:大数据 来源:网络
导读: 上节课我讲到数据化运营针对部分用户和物品做出了精细化的运营动作,说到用户圈选那必然会涉及大量的用户信息,如果作为一个用户你可能很担心,我的信息会不会被泄露,会不会被用来干一些不

上节课我讲到数据化运营针对部分用户和物品做出了精细化的运营动作,说到用户圈选那必然会涉及大量的用户信息,如果作为一个用户你可能很担心,我的信息会不会被泄露,会不会被用来干一些不好的事情?尤其是在当前大数据盛行的时期,一个公司可能掌握了全国甚至世界上很多人的私密信息,包括你的基本资料,也包括你的言语甚至是你的行动轨迹。如果说公司做不好数据安全的工作,把这些信息泄露到一些不法分子的手中,那么会产生非常危险的后果。不仅仅是自身企业的信誉受损,用户的权益受到损害,这些数据被人利用还可能危害社会甚至是国家的安全。因此要做好数据安全工作不仅仅是技术上的,更是公司管理上的重点,需要一系列的制度流程和技术手段共同来保障数据安全。这节课,我们就来讨论一下关于数据安全的一些事情。

数据安全问题

我们的大数据体系之下囊括了各种各样的数据,从数据的生产开始,大量数据源源不断地进入我们的大数据平台中,被加以处理和利用。自然,大数据给很多公司带来了大量的收益,也给用户提供了很多便利的服务,为社会创造了很多价值,但是,与之伴随而来的,是各种各样的数据安全问题。在这里,我们先来看一下在大数据体系之下,或者说我们的公司中都会存在着什么样的数据安全问题。

1.硬件安全

首先是硬件方面的安全问题。比如说我们的硬盘、内存、CPU 等,虽然硬件的使用周期很长,但是这些设施长时间使用仍然会有故障出现,尤其是在大数据下,服务器数量众多,大公司或者云服务供应商动辄就有成千上万的服务器。除了本身的故障问题,还可能受到自然灾害、人为破坏的影响,如果硬件发生大面积的问题可能导致我们的服务出现问题。

2.平台安全

平台安全主要是指我们的大数据平台,其中用到很多工具,这些内部使用的平台工具虽然经过很多经验丰富的开发人员开发和使用,但是仍然难免存在着一些缺陷或者漏洞,以及在遇到一些攻击时,可能在某些环节产生数据泄露。

3.服务安全

第三个是提供服务时的安全问题。大数据平台当然不是只放在那里就可以了,我们使用大数据平台来建设公司内部的能力,从而能利用这些数据对外提供服务,包括我们对用户提供的服务和我们内部的服务,比如上节课讲到的圈人系统。对于这些服务,面临的安全风险就更多了,因为这些服务有很多对外暴露的地址、端口等访问方式,如果其中存在一些高风险漏洞就可能被不法分子利用。

4.流程安全

上面三种可以说都是基于数据的容纳场所的安全,不管是服务器还是大数据平台,数据在上面存储和流转,如果它们本身存在安全问题数据当然是不能幸免的。

但是在我们日常的工作中,数据并不只是在这里面存放,而是会有很多的人在使用这些数据。不管是数据分析师通过大数据平台进行分析,还是数据挖掘同学把数据转移到 GPU 机器上进行运算,都是使用数据的正常流程,但是在这些流程中,数据安全问题也非常值得关注,不然在数据经过几次复制转移之后,到底有多少数据流出去,到底有没有重要数据被泄露,已经没有人说得清楚了。

数据安全的技术方案

可以看到,在我们的公司中,面临的数据安全问题很多,所以要严加防范,那么在一般情况下都有什么样的技术方案来解决数据安全问题呢?

1.安全分级

首先我们可以对数据的安全等级进行划分,比如说:

依照制定好的数据安全等级,在不同的环节给予不同的处理方案,比如说在数据的存储方面,给高安全等级的数据增加更多安全硬件设施;在权限审核上更加严格等等。

有了比较明确的安全等级,也方便对数据安全问题进行监控,一旦发生数据不合规的数据传输,方便确认风险大小。如果没有明确的安全等级,对我们的大数据中所有数据一致管理,要浪费很多资源不说,同时在发生问题时也很难确认该如何处理。

2.权限认证

在大数据体系中,会有很多环节和工具涉及数据的存储和应用,同时,在公司中还有很多的系统会涉及这些数据的使用。在公司层面统一一套权限认证的标准,对于不同安全等级的数据,对使用方采取统一的权限管理,不管是个人使用还是系统使用,都可以接入这个权限认证体系,这样既可以节省数据流转时各种烦琐的申请和审批手续,又可以对数据的应用情况了如指掌。在大数据工具中,有一个通用权限认证解决方案:Kerberos,可以为我们前面提到的很多大数据工具提供权限认证服务。

3.资源隔离

资源隔离方面,通常采用的是多租户方案,也就是在一套硬件上,为不同安全等级的数据建设多套架构服务,比如说对于大数据中的存储 HBase,对高安全等级的数据使用一套单独的 HBase存储,对低等级的数据采用另外一套Hbase存储。这样在操作的时候都是分隔开的,也方便对数据的监控。

4.数据加密

数据加密很容易理解,也是很早就有的技术了。简单来说,加密技术就是通过一些变换算法,把原本的数据处理成不可读或者没有意义的数据,只有加密人本身知道如何将加密后的数据还原。

之前去平遥古城,那里的日升昌票号是中国第一家银行,他们的汇票就已经在采用加密技术,比如把 1 到 12 个月用文字“谨防假票冒取,勿忘细视书章”进行替代。

对于不同安全等级的数据,我们可以采用不同等级的加密技术,同时在数据的传输和存储环节也有不同的加密方案。加密技术是一门涉及很广的课程,现代密码技术一般分为对称加密和非对称加密,如果对这方面感兴趣的同学可以去学习一下密码学。

5.数据备份

数据备份主要是防止发生大面积的网络问题、数据丢失情况,以及人为破坏或者自然灾害等不可以预料的问题。针对不同安全等级的数据,我们也可以采取不同的备份策略,比如对于安全级别高的数据采取实时的多存储方案,对于低安全级别的数据定期进行备份等。

6.数据脱敏

数据脱敏一般是对数据监控环节进行的。对于安全级别较高的数据可以认为是敏感数据大数据隐私保护,比如说用户的姓名、手机号等,但是在数据传输或者使用过程中,往往会跟其他部分混杂在一起。在对数据的流转进行监控的过程中,如果发现涉及敏感数据,可以对数据进行替换、隐藏等等操作,以防止敏感数据泄露。这种方案一般是针对数据对外开放的时候采取的措施。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!