大数据基础课17 大数据环境下如何保护隐私
上节课我讲到数据化运营针对部分用户和物品做出了精细化的运营动作,说到用户圈选那必然会涉及大量的用户信息,如果作为一个用户你可能很担心,我的信息会不会被泄露,会不会被用来干一些不好的事情?尤其是在当前大数据盛行的时期,一个公司可能掌握了全国甚至世界上很多人的私密信息,包括你的基本资料,也包括你的言语甚至是你的行动轨迹。如果说公司做不好数据安全的工作,把这些信息泄露到一些不法分子的手中,那么会产生非常危险的后果。不仅仅是自身企业的信誉受损,用户的权益受到损害,这些数据被人利用还可能危害社会甚至是国家的安全。因此要做好数据安全工作不仅仅是技术上的,更是公司管理上的重点,需要一系列的制度流程和技术手段共同来保障数据安全。这节课,我们就来讨论一下关于数据安全的一些事情。
数据安全问题
我们的大数据体系之下囊括了各种各样的数据,从数据的生产开始,大量数据源源不断地进入我们的大数据平台中,被加以处理和利用。自然,大数据给很多公司带来了大量的收益,也给用户提供了很多便利的服务,为社会创造了很多价值,但是,与之伴随而来的,是各种各样的数据安全问题。在这里,我们先来看一下在大数据体系之下,或者说我们的公司中都会存在着什么样的数据安全问题。
1.硬件安全
首先是硬件方面的安全问题。比如说我们的硬盘、内存、CPU 等,虽然硬件的使用周期很长,但是这些设施长时间使用仍然会有故障出现,尤其是在大数据下,服务器数量众多,大公司或者云服务供应商动辄就有成千上万的服务器。除了本身的故障问题,还可能受到自然灾害、人为破坏的影响,如果硬件发生大面积的问题可能导致我们的服务出现问题。
2.平台安全
平台安全主要是指我们的大数据平台,其中用到很多工具,这些内部使用的平台工具虽然经过很多经验丰富的开发人员开发和使用,但是仍然难免存在着一些缺陷或者漏洞,以及在遇到一些攻击时,可能在某些环节产生数据泄露。
3.服务安全
第三个是提供服务时的安全问题。大数据平台当然不是只放在那里就可以了,我们使用大数据平台来建设公司内部的能力,从而能利用这些数据对外提供服务,包括我们对用户提供的服务和我们内部的服务,比如上节课讲到的圈人系统。对于这些服务,面临的安全风险就更多了,因为这些服务有很多对外暴露的地址、端口等访问方式,如果其中存在一些高风险漏洞就可能被不法分子利用。
4.流程安全
上面三种可以说都是基于数据的容纳场所的安全,不管是服务器还是大数据平台,数据在上面存储和流转,如果它们本身存在安全问题数据当然是不能幸免的。
但是在我们日常的工作中,数据并不只是在这里面存放,而是会有很多的人在使用这些数据。不管是数据分析师通过大数据平台进行分析,还是数据挖掘同学把数据转移到 GPU 机器上进行运算,都是使用数据的正常流程,但是在这些流程中,数据安全问题也非常值得关注,不然在数据经过几次复制转移之后,到底有多少数据流出去,到底有没有重要数据被泄露,已经没有人说得清楚了。
数据安全的技术方案
可以看到,在我们的公司中,面临的数据安全问题很多,所以要严加防范,那么在一般情况下都有什么样的技术方案来解决数据安全问题呢?
1.安全分级
首先我们可以对数据的安全等级进行划分,比如说:
用户的真实信息为最高密级;
用户的相关信息为次高密级;
用户的行为信息为一般密级;
公开信息为最低密级。
依照制定好的数据安全等级,在不同的环节给予不同的处理方案,比如说在数据的存储方面,给高安全等级的数据增加更多安全硬件设施;在权限审核上更加严格等等。
有了比较明确的安全等级,也方便对数据安全问题进行监控,一旦发生数据不合规的数据传输,方便确认风险大小。如果没有明确的安全等级,对我们的大数据中所有数据一致管理,要浪费很多资源不说,同时在发生问题时也很难确认该如何处理。
2.权限认证
在大数据体系中,会有很多环节和工具涉及数据的存储和应用,同时,在公司中还有很多的系统会涉及这些数据的使用。在公司层面统一一套权限认证的标准,对于不同安全等级的数据,对使用方采取统一的权限管理,不管是个人使用还是系统使用,都可以接入这个权限认证体系,这样既可以节省数据流转时各种烦琐的申请和审批手续,又可以对数据的应用情况了如指掌。在大数据工具中,有一个通用权限认证解决方案:Kerberos,可以为我们前面提到的很多大数据工具提供权限认证服务。
3.资源隔离
资源隔离方面,通常采用的是多租户方案,也就是在一套硬件上,为不同安全等级的数据建设多套架构服务,比如说对于大数据中的存储 HBase,对高安全等级的数据使用一套单独的 HBase存储,对低等级的数据采用另外一套Hbase存储。这样在操作的时候都是分隔开的,也方便对数据的监控。
4.数据加密
数据加密很容易理解,也是很早就有的技术了。简单来说,加密技术就是通过一些变换算法,把原本的数据处理成不可读或者没有意义的数据,只有加密人本身知道如何将加密后的数据还原。
之前去平遥古城,那里的日升昌票号是中国第一家银行,他们的汇票就已经在采用加密技术,比如把 1 到 12 个月用文字“谨防假票冒取,勿忘细视书章”进行替代。
对于不同安全等级的数据,我们可以采用不同等级的加密技术,同时在数据的传输和存储环节也有不同的加密方案。加密技术是一门涉及很广的课程,现代密码技术一般分为对称加密和非对称加密,如果对这方面感兴趣的同学可以去学习一下密码学。
5.数据备份
数据备份主要是防止发生大面积的网络问题、数据丢失情况,以及人为破坏或者自然灾害等不可以预料的问题。针对不同安全等级的数据,我们也可以采取不同的备份策略,比如对于安全级别高的数据采取实时的多存储方案,对于低安全级别的数据定期进行备份等。
6.数据脱敏
数据脱敏一般是对数据监控环节进行的。对于安全级别较高的数据可以认为是敏感数据,比如说用户的姓名、手机号等,但是在数据传输或者使用过程中,往往会跟其他部分混杂在一起。在对数据的流转进行监控的过程中,如果发现涉及敏感数据,可以对数据进行替换、隐藏等等操作,以防止敏感数据泄露。这种方案一般是针对数据对外开放的时候采取的措施。
7.分享水印
针对数据分享时候的安全问题,除了脱敏还可以采用水印技术。不管是内部的可视化平台,还是对于可分享的文件、图片或者 PPT 等资源,统一加入水印来标记。在一些公司分享的资料中,你经常会看到一些可见的水印标记,当然,对于数据也可以加入一些隐藏水印,达到安全防护的作用。水印技术虽然不能防止数据泄露,但是能够通过水印追踪负责人,属于一种事后手段。
除了这里所讲到的技术手段,公司在面对数据安全问题的时候,还需要配合管理手段来建立一套比较完善的数据安全管理机制,对公司内的人员进行宣传教育,提高大家的防范意识,并且在数据生产、数据存储、数据传输、数据应用等环节进行事前的保障、事中的监控、事后的追踪。
个人如何注意隐私保护
虽然说公司在内部通常都会注意数据安全的问题,但是仍然免不了存在这样那样的问题,导致数据泄露到不法分子的手中。正如我们经常在新闻中看到的那样,2014 年 12306 网站旅客信息泄露;2016 年 12 GB 用户信息泄露;2018 年华住酒店 5 亿条数据被出售。类似的新闻层出不穷,我想在未来的一段时间里,仍然无法完全避免这种事情的发生。对于个人来说,完全不使用大数据相关的产物在这个时代几乎是不可能的,那么该如何注意保护自己的隐私呢?
1.不使用一些来路不明的 App
对于正规公司生产的 App,因为其受到比较严格的监管,一般都会注意数据安全的问题,他们至少不会主动去出卖你的信息,而且一旦你因为他们的问题造成损失,他们需要承担相应的赔偿。但是有很多 App 和一些分享链接的目的就是套取你的信息用于出卖,这类 App 一般都通过个人的方式发布,没有明确的公司名称,平时在下载的时候应该注意区分。
2.对不同等级的 App 使用不同的密码
譬如我可能会把 App 区分成金融类,像支付宝、微信以及银行 App 都属于这一类,直接跟自己的资金账户相关,对这类 App 设置足够复杂且不同的密码,同时使用指纹开锁等加密措施。
对于一些我可能要支付,或者发布信息的 App,比如知乎、豆瓣,则密码可以相对弱一些。
最后一级是纯浏览型的 App,比如抖音、爱奇艺,我只是看上面的东西,对于这类 App 基本上都是使用相同的密码,即便是被盗了也不会对我有什么损失。
3.发布信息注意避免隐私
大数据时代,用户自己发布各种信息变得十分方便,但是你发的这些东西如果不注意,很可能对你造成损失。比如说你彩票中奖了,把彩票发到网上被别人冒领了;或者你把带有身份信息的东西,比如身份证照片发到网上,被人用来注册 App 或者拿来贷款,都是有可能的。所以,发布信息一定要注意区分,如果里面的信息会通过某些联系关联到你,那么就要谨慎了。
4.不贪小便宜
最后一点,也是最重要的一点,不要贪小便宜。一切盗取数据行为的目的都是为了从你这里谋取利益,比如通过你的下单信息给你发短信说要赠送东西,或者告诉你中奖了等等来吸引你的注意力,从而让你落入他的圈套之中。现在很多使用大数据的公司都有比较严格的校验系统,如果你不主动配合,只是使用你的信息,不法分子也很难利用你的信息来牟利,因此一定要注意不贪小便宜,对于各种送上门的东西保持警惕。
总结
这节课我们主要讨论了有关数据安全的问题以及应对数据安全问题都有一些什么样的技术方案。大数据体系虽然很好,给我们的生活带来了很多便利,但是它带来的安全威胁同样十分巨大,不管是在建设大数据体系的公司,还是接受大数据福利的个人,都需要对数据安全问题有清醒的认识,做好防范准备和应对措施。最后,我也基于自己的经验讲了一些个人该如何注意隐私保护的方法,虽然说个人在大数据的数据安全方面处于被动的地位,但是采取一些必要的措施,以及注意不要贪小便宜,还是可以把风险降到比较低的状态,希望可以对你有一些帮助。
那关于大数据环境下的隐私问题,你有哪些好的保护方法呢,欢迎在评论区与我们分享。
随着公司的不断发展,大数据体系越建越大,流程越来越复杂,工具与系统越来越多,安全及各种问题也越来越突出,有没有那么一种方案能够提供大一统的解决方案,这时候,有一个称为“数据中台”的概念横空出世,但是什么公司该建设数据中台,数据中台有什么优点又有什么缺点?下节课,我们就带着这些问题来看一下,什么是数据中台。
大数据基础课17 大数据环境下如何保护隐私相关推荐
- 大数据基础课04 大数据开发必备工具和来源
在前面的章节里,我们多次提到了 Hadoop 这个名称,想必你也大概知道了 Hadoop 是一个用于大数据的架构解决方案.关于 Hadoop 的理论基础以及是如何诞生的,我们在<02 | 从萌芽 ...
- 大数据工作流_大数据和人工智能时代下的数字化工作流
点击上方"Bentley软件"可以订阅哦 本文作者 Bentley 软件公司 高级技术经理 赵顺耐 大数据.人工智能以及与之相伴相生的物联网已经成为现代社会的运行方式,信息技术的急 ...
- 字节跳动大数据中心17万服务器硬实力支撑今日头条等产品线(公号回复“字节跳动”下载PDF典型资料,欢迎转发、赞赏支持科普)
字节跳动大数据中心17万服务器硬实力支撑今日头条等产品线(公号回复"字节跳动"下载PDF典型资料,欢迎转发.赞赏支持科普) 原创: 秦陇纪 科学Sciences 昨天 科学Scie ...
- 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(下)...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...
- 「深圳云栖大会」大数据时代以及人工智能推动下的阿里云异构计算
摘要: 最近几年,在大数据和人工智能的推动下,异构计算有了长足的发展.无论是在产品形态上,还是在应用领域上,阿里云异构计算都取得了累累硕果. 最近几年,在大数据和人工智能的推动下,异构计算有了长足的发 ...
- 2017年中国大数据发展趋势和展望解读(下)
导读:2015年8月,国务院印发<促进大数据发展行动纲要>,首次明确提出建设数据强国:2015年10月,党的十八届五中全会提出"实施国家大数据战略",将大数据上升为国家 ...
- 大数据基础课01 如何在庞大的大数据体系中明确路径?
你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...
- 大数据基础课03 阿里美团这些大厂都在用什么大数据架构?
首先,我想讲一个叫庖丁解牛的故事,想必你应该听过.庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛.也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构,砍入牛体筋骨相 ...
- 大数据是什么和大数据技术十大核心原理详解
一.数据核心原理 从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据&quo ...
- 什么是“大数据新闻”? 大数据
数据就是资产. 大数据(Big Data)是近些年非常火的一个词汇. 新闻业也常常借助大数据技术来革新报道形式. 那么,究竟什么是大数据呢,大数据新闻又是一个什么概念? 很多初学者,对大数据的概念都是 ...
最新文章
- linux选择最短路径sdn,基于网络流量的SDN最短路径转发应用
- Golang的模板与渲染
- VTK:可视化之DistanceToCamera
- linux下创建的符号链接的权限
- python爬虫从入门到精通
- base——JavaSEJavaEEJavaME的区别【Java中常用的包结构】
- OKR 八问 —— 关于 OKR 的常见问题与思考
- Android和iOS的一些区别
- Universal Source_free Domain Adaption论文阅读笔记
- 由C向B:社区团购切换比拼赛道?
- 游侠的基础技术总结——前言
- php 斐多纳契数列,菲波纳契数列对股市的影响
- 使用parted创建大分区时 mkpart Warning: The resulting partition is not properly aligned for best performance.
- 毕业三年,听到我的年薪只是表弟的月薪,我心态崩了。。。
- 矿大2019年 微机原理与接口考试题型
- Unity学习笔记(实现传送带)
- Ubuntu20.04安装QQ
- 一些Android拨号盘的基本代码
- 电源管理芯片的架构与功率
- Android应用市场上架管理