未来已来

——《大数据时代》读书报告

课程:商务数据分析 学号: 姓名:

引言

维克托·迈尔·舍恩伯格在其《大数据时代》中的前言开宗明义:一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型,正如显微镜让我们得以认识到微观中的世界,重新定义我们的认知一般,大数据正在改变我们生活以及理解世界的方式。
“每当一个时代来临之际,总有一部分人摩拳擦掌、一部分人随波逐流,还有一部分人茫然无措”,从互联网的大规模流行以来,智能社会、数字社会、信息社会都是我们老生常谈的话题,大数据作为其运转的根本动力和核心燃料,则是我们避免对这些事情茫然无措所难以避开的话题,而维克托·迈尔·舍恩伯格的《大数据时代》则是一本能让我们对这个时代初窥门径的书籍。

内容概述

《大数据时代》于2013年出版,那时正处于大数据所方兴未艾、众说纷纭的时候,为很多人仅仅认为大数据只是“数据大”的人阐述和厘清了关于大数据的基本概念和特点。舍恩伯格认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府和公民关系的方法。或许是在舍恩伯格成书的阶段人们对于大数据的概念认知还比较少,因而书中更多的是偏向大数据的应用性的内容,每一章都使用了大量的例子进行例证。作者首先先阐述大数据时代的三个思维变革,“更多,不是随机样本而是全体数据”“更杂 不是精确性,而是混杂性”“更好,不是因果关系,而是相关关系”,为我们平时在面对大数据所容易产生的误解方面厘清的概念;紧接着作者把聚光灯打向“数据”本身,在“一切都可量化”所带来的大数据的基础上对商业上已经或可能产生的“取之不尽,用之不竭”的数据创新加以阐述;同时作者也并不一味乐观地看向大数据的应用方面,而是对大数据所可能带来的“数据主宰一切”的隐患也加以说明,并在此基础上进一步提出了在迈向大数据时代时,社会也应对信息自我管理方面加以变革,对相关法律加以改进,提出了“个人隐私保护,从个人许可到让数据使用者承担责任”“个人动因VS预测分析”和“击碎黑盒子”这三大管理变革。
值得一提的是,虽然作者认为大数据时代的核心在于预测,也提出了许多预测有利于经济、管理等方面的案例,但作者并没有盲目地相信预测的威力,“没有说明是上天注定的,因为我们总嗯那个就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写”,作者强调要给人的自由意志给与空间,允许我们按照自己的愿望做出选择,而不是单单靠预测对一切做出解释;作者的这一观点则是使得我在敬佩作者的专业性也对作者,维克托·迈尔·舍恩伯格先生的人格也肃然起敬。
回顾本书,不得不佩服作者所拥有的超凡的预见能力,如今大数据给全球社会和经济都产生着巨大的影响,而其中如无人驾驶以及智能医疗等许多变化则是舍恩伯格在创作此书时就已预见的,不愧为“大数据时代的预言家“

作者简介

维克托·迈尔·舍恩伯格,被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究,代表作由《大数据时代》《删除:大数据取舍之道》。

读书笔记

一、信息爆炸——万物皆数

舍恩伯格先生把天文学称作信息爆炸的起源,从天文学的信息爆炸引申到现实生活的其他领域,从科学研究到医疗保险,从银行业到互联网,各种领域都在讲述这个类似的故事,我们周围的数据为何如此之多,如此之快,在给与我们无穷可利用信息的同时,也使得我们需要通过各种筛选工具来获得我们实际想要的信息,舍恩伯格先生更多的是从各种角度来向我们阐述大数据之“大”,但为何数据会如此之大,却缺乏进一步的解释,大数据之大在于其具有“多维度”“时间性”和“重复性”。
1.多维度
多维度代表着大数据对一个事物的多方位的描述,进而更准确,而这也在很大程度上决定了大数据之大。
以蚂蚁金服的芝麻信用分为例,从用户的身份特质、行为偏好,到其信用历史、人脉关系,其对信用评分有着大量而全面的评估体系,从多个维度对用户的信息反馈汇总到一起,做出准确的信用评估。
(表1:芝麻信用评分维度)

2.时间性
大数据是生生不息的“流”,具有时间性。这个概念很有哲理,大数据过去就不再回来,就像人无法两次踏入一条河流一样。“百度大数据实验室中有一个概念叫做“时空大数据”,原因是大数据太过巨大,无法全部存储,另一方面是大数据和人类生生不息的行动相关,瞬息万变。”
3.重复性
大数据的“大”表现为无尽的重复,以语音识别为例,人们每一天都会说出很多话语,而这一些话语中很大一部分和前天是相同的,明天也是如此。而语音识别技术正是基于这无穷无尽的海量重复数据中,仔细辨别,逐步完善进化的

二、何谓大数据

正如前面所说舍恩伯格先生认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉,他更多的是在应用的角度上解释的,而在这里我想多分享一些其他老师在其他角度关于大数据的阐述。
从方法论层面看,“在方法论的层面,大数据是一种全兴的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变”,吴军老师如是说。从这个角度上看,他大数据在思维方式上的变革:强关联关系——从大量的数据中直接找到答案,更多的关注在思维方式上变革导致问题解决方法上的改变,其实也是和舍恩伯格先生的角度很相近的。
而从大数据的来源看,根据马丁·希尔伯特的总结,今天我们常说的大数据其实是在2000年后,因为信息交换、信息存储、信息处理三个方面额能力的大幅增长而产生的数据。
图2:大数据的三大支柱

三、大数据变革

《大数据时代》的内容主要是讲述一场生活、工作和思维的大变革,舍恩伯格先生从思维、商业和管理三方面对这个变革进行了阐述。
(一)大数据时代的思维变革
1.更多 不是随机样本,而是全体数据
全体数据指的是利用所有的数据,而不再仅仅依靠一小部分数据。从很长的一段时间以来,受限于数据量和数据分析方法,我们更多的是希望通过最少的数据活的最多的信息。我们会听到某个组织通过很科学有效的方法仅仅采集了很小的抽样样本就准确地预测了美国总统的选举效果,因此和抽样样本的大小相比,我们认识到了随机取样是更重要的。
但进入大数据时代,在数据收集和分析技术有了很大改进的现在,我们有足够的可能收集分析出我们所想要的信息,因而样本分析的方式重要性就逐渐下降了,正如以前网络上一句很流行的话语,“可以但没必要”。
2.更杂 不是精确性,而是混杂性
在小数据时代,我们在问卷调查样本分析的过程中经常强调要对数据进行预处理,将明显不合格的数据删去或修改。但进入大数据时代,我们在扩大数据规模的时候学会了去拥抱数据的混杂性。其中一个原因是做不到:在数据规模已经有了千万倍扩大的时候,去做到让每一份数据都是精确的是不可能的,总会又一部分数据会存在错误;另一个原因是没必要,在通过牺牲一部分精确性之后可以获得足够多数据的情况下,这个代价对我们来说是可以接受的。就如立法中质量和效率都很重要,但如果当我们牺牲一点质量能够使得效率大幅增加,我们是能够接受不精确的存在的。
3.更好 不是因果关系,而是相关关系
明白“是什么”,而不去深究“为什么”是这一思维变革所重视的一点。我们总认为有因必有果,当我们在生活中碰见的很多不一般的现象我们总会很自然地给他们加上一个原因,当我们拉肚子的时候,我们会很快地想“肯定是中午吃的那家饭店有问题,下次不去了”,这种很直接的联系方式会节省我们很多的思考时间,尽管很多时候两者并没有相关关系。
在大数据时代则不能这样子,很多时候对于寻找因果关系找到答案的难度相当之大,因而我们会选择一种新的思维方式——从大量的数据中直接找答案,而不去探寻背后的因果关系,这为我们提供了一种有效而便捷的思维方式。
(二)大数据时代的商业变革
1.数据化 一切都可量化
计量和记录一起促进了数据的诞生,奠定了数据化最早的根基,而计算机的出现带来了数字测量和存储设备,大大提高了数据化的效率,使得通过书挖掘分析挖掘出数据更大的数据变成了可能。
舍恩伯格先生在此部分辨析了数据化和数字化的概念,数字化是指把模拟数据转换成用0和1表示的二进制码,而数据化则是一种把现象转变为可制表分析的量化形式的过程。数字化带来数据化,而数据化也使得我们意识到本质上世界上是由信息构成的,这为我们提供了一个从未有过的视角,为我们通过量化一切创造价值提供了一种新的世界观。
2.价值 取之不尽用之不竭
数据的价值取之不尽用之不竭的其中一个原因是数据具有“非经济性”。数据不同于物质性的东西,其价值不会随着它的使用而减少,而是可以不断的被处理,这也是经济学家所说的“非经济性”的好处:个人的使用不会妨碍其他人的使用,而且信息不hi像其他物质产品一样随着而是用而有所损耗。因此对于用户而言,不论是生成这些数据的用户或是其他用户,过去的交易数据都有着很大的借鉴意义。
另一个原因则是数据的价值具有“冰山效应”。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。数据的价值是其所有用途的总和,当通过“数据再利用”“数据重组”以及“数据可拓展”等方式处理数据时,就可以发现数据在海面之下的真正价值。值得一提的是数据折旧值和数据废气的概念,数据折旧值指的是数据用于基本用途的价值会随着世家而减少,数据废气是指用户在先交互的副产品,包括浏览了哪些页面、停留了多久等等数据;数据的折旧值使我们认识到即使数据用于基本用途的价值会减少,但其的潜在价值仍然是无法估量的。而数据废气则使我们认识到即使是不起眼甚至是“噪音数据”仍然有着的价值。
3.角色定位 数据、技术与思维的三足鼎立
舍恩伯格先生依据数据提供价值的不同来源,将大数据公司划分为三种,第一种是基于数据本身的公司——拥有大量的数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的潜能;第二种是基于技能的公司——掌握专业技能却并不一定拥有数据湖提出数据创新性用途的才能;第三种是基于思维的公司——具有挖掘数据的新价值的创新思维。
时至今日,许多数据拥有者已经逐步开始发展技术和专业技能,但创新思维则是很难通过发展技术而获得的,这也是许多像百度一样 的公司会定期邀请一些科幻作家到美国进行研讨的原因,正因为他们是外行人,因此思维能够不受限制,思考的只有可能,而不考虑的可行性。
(三)大数据时代的管理变革
1.大数据忧思
大数据的核心思想是通过规模剧增来改变现状,其固然是我们在合理决策过程中的有力武器,但它也有可能成为权贵用来做镇压民众的工具。当大数据管理不当或者出现数据分析错误,对我们的损害导致的不良后果将比层出不穷的定制广告带给我们的不适感要严重的多。
舍恩伯格先生提到隐私被二次利用以及大数据预测的滥用导致的人们不是因为所做而导致惩罚,而是因为将做的大数据隐患,但这仅是其中的一部分,但在我们的日常生活中,只要对数据泄露有一定敏感度,就可以发现数据泄露的案例层出不穷,相比于数据滥用,数据保管的不严密可能对我们的伤害直接的多。
今年三月份的时候,有用户爆料5.38亿条微博用户信息在暗网出售,其中,1.72亿条有账户基本信息,售价0.177比特币,工商局约谈微博。2019年也有华住酒店1.23亿数据在暗网出售。如此之多的数据泄露案例,甚至让我已经感觉见怪不怪了。可能这一些用户信息、住房信息数据泄露的后果的对我们来说的影响可能没有那么大,但如果更进一步,是我们的身份证信息泄露呢,这就不得不使我们感到恐慌。虽然我们大多是普通人,但即使是这一些不大值钱的信息,也是我们的一生,是我们努力、勤劳、辛苦而又无可替代的一生。
2.责任与自由并举的信息管理
我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革,同时,这些变革也会带来社会需要维护的核心价值观的转变。舍恩伯格先生在这一部分提出了一个全新的制度,或者一些创新性的归责思想更合适些。
(1)个人隐私保护,从个人许可到让数据使用者承担责任
设立让数据使用者承担风险的原因主要有两个,其一是因为我们大多数人对我们的隐私保护的敏感度不强。在生活中,我们会经常碰到很多的APP同意条款,而包括我在内的大多数人基本上是没有耐心去看完的,而这种行为很可能导致我们在不知情的情况下就同意了一些不合理的隐私条款。另一个原因则可以说是直击要害,很少有用户能够认识到数据的二次利用所带来的 数据泄露,而当我们将数据使用的责任归责于数据使用者时,就能很好地规避隐私被二次利用的问题。
(2)个人动因VS预测分析
在大数据时代,当我们所获得的数据足够多时我们甚至可以对犯罪等行为进行预测,那么我们是否应该为我们所可能发生但还未发生的行为倾向负责呢?为我们的未发生的行为负责显然是不合理的,但一旦发生则确实可能造成极大的损害,这似乎陷入了矛盾,作者对于这一问题的解决措施是:将个人动因的保护纳入公正的理解中来,确保政府对行为的评判是是基于真实行为而非单纯依靠大数据分析,即政府可以通过大数据分析做出一定的 措施避免情况发生,但不能只因为大数据分析检测就判定其有罪。
(3)击碎黑盒子,大数据算法师的崛起
(4)反数据垄断大亨

四、大数据取舍之道

舍恩伯格先生在《大数据时代》中所关注的更多是大数据的应用、数据的潜在价值以及数据被滥用可能带来的后果,但对于数据是否应该“遗忘”却关注较少,舍恩伯格先生的另一本书《删除:大数据的取舍之道》和《大数据时代》互为补充,后者说的是在大数据时代我们应该保留什么,而前者则是讲述在大数据时代选择性遗忘的重要性。
对于人类而言,遗忘是我们的常态,记忆是例外。但在如今的时代,由于数字技术与全球网络的发展,以往我们在互联网中留下的每一个足迹都可能被记住,记忆成了常态,而遗忘则成了例外。
在高度数字化的现代社会,我们的私人信息不仅在今天可能被滥用,在几年甚至几十年后仍然可能被滥用,无论我们自身对自己行为的认知是怎样的,我们都不会希望有一颗定时炸弹在我们身边,因为我们不能确定是否某一天我们的私人信息是否会被滥用,舍恩伯格先生在《删除:大数据的取舍之道》中则提出了我们应该通过塑造互联网及其服务,以使得数字信息能够在一段时间后被渐渐遗忘。
在具体对策方面,舍恩伯格提出了 数字化节制、保护隐私权、建立数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态和完全语境化六大对策。其中数字化节制和调整人类的现有认知是通过改变我们人类的自身的数字行为来消除和降低潜在风险;保护隐私权和建立数字隐私权基础设施则是从法律上保护公民的隐私权以及在维权法律的必要程序上做出变革从而支持隐私权的保护。
五、新世纪 新未来
每当一个新时代来临,总有一部分人摩拳擦掌,一部分人随波逐流,还有一部分人茫然无措。对于大数据的忧思不等于悲观,也只有在忧思基础上的乐观才是真正的乐观。大数据时代的到来无可避免,面对大数据时代,我们有振奋、有期待、也有惶恐,社会的变化如此之快,我们能做的只能是学习、不断地学习,方能使我们不会在新时代来领之时茫然无措,而是能够摩拳擦掌地面对未来。

参考书籍及视频:
《删除:大数据取舍之道》维克托·迈尔舍恩伯格
《智能革命:迎接人工智能时代的社会、经济与文化变革》李彦宏
《人工智能》李开复 王咏刚
https://b23.tv/BV1K64y1u7fy【半佛】你的身份隐私是如何被卖的

总结与感想

首先要先感谢老师提供了这一份有史以来关于读书报告的最长字数作业,为了完成这一份作业着实令我头疼不已,但完成这一份作业确实收获很多,不仅仅是关于大数据的一些思维变革或是对大数据时代的认识,更多的可能是使我对于数据泄露的敏感度有一定提升。
一直以来我对于数据泄露这一类的新闻是很不敏感的,或者说对于新闻是非常不敏感的,但写这一份作业的过程中会有意识地去了解有关这一方面的新闻,使我能够看到一直以来被我忽视的信息,同时也对相关的领域产生了一些些兴趣,这个可能是我之前所没有预料自己能够收获到的,非常感谢!

2020年4月6日星期一

《大数据时代》读书报告相关推荐

  1. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  2. 5000字 大数据时代读书笔记_《大数据时代读书笔记》

    大数据时代读书笔记 本书在讲些什么? <大数据时代>的一大贡献在于大数据方兴未艾.众说纷纭的时刻,进一步 阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是"数据大&qu ...

  3. 5000字 大数据时代读书笔记_大数据时代 读书笔记

    大数据时代 维克托·迈尔·舍恩伯格 首先作者抛出了大数据时代处理数据理念上的三大转变:  要全体不要抽样. 首先,要分析与某事物相关的所有数据,而不是依 靠分析少量的数据样本.全数据模式,样本 = ...

  4. 5000字 大数据时代读书笔记_《大数据时代》读后感5篇

    <大数据时代>读后感 5 篇 对于畅销书刊.热点话题.时尚科技,始终不太感兴趣.书 刊,喜欢有一定年份的.话题,钟情于务虚的观点.新奇的产品 于我无缘,习惯使用成熟的科技产品.既不清高,也 ...

  5. 5000字 大数据时代读书笔记_读书笔记 大数据时代

    当然,行业专家是不会真正消亡的,只是他们的主导地位会发生改变.未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样.这改变了我们怎样看待知识的价值,因为我们 ...

  6. 《大数据时代》读书笔记——知道“是什么”就够了,没必要知道“为什么”。我们不必非得知道现象背后的原因,而是要让数据自己“发声”

    引言--一场生活.工作与思维的大变革 今天,一种可能的方式,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的.大数据是人们获得新的认知 ...

  7. 大数据时代下“被直播”问题现状调研报告

    "被直播"问题,指的是大数据时代,不管是自身原因或者他人原因而造成的隐私问题泄露,对公众造成潜在或既成影响的一种普遍现象.如何对"被直播"问题进行系统分析,分析 ...

  8. 《大数据时代》读书笔记

    大数据开启了一次重大的时代转型.就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发-- 大数 ...

  9. 猫眼发布电影大数据报告:大数据时代的电影消费洞察

    近日,猫眼电影发布了关于"大数据时代的电影消费洞察"的报告(以下简称报告),报告数据分析来源于超5亿人次的猫眼电影消费数据和4000家影院数据.报告显示,2015上半年全国电影票房 ...

最新文章

  1. Python1217作业
  2. iqn怎么查 linux_程序员必备:46个Linux面试常见问题!收藏!
  3. 【C++】 C++标准模板库(六) Queue
  4. 做程序开发的你如果经常用Redis,这些问题肯定会遇到
  5. 大数据图数据库之MapReduce用于图计算
  6. 获取 子文件夹 后缀_CSDN学院第一个Ptython Homework-- 递归统计文件夹大小
  7. Effective C++学习第四天
  8. Linux C 指针练习
  9. 打印速度快点的打印机_瞒着领导偷偷给你们发两台打印机
  10. 三十、详测 Generics Collections: TObjectList、TObjectQueue、TObjectStack
  11. flask-稿件-环境依赖包的生成与安装-flask虚拟环境的布局
  12. 高并发异步uwsgi+web.py+gevent
  13. 接口测试用例设计思路_基于python语言的接口自动化demo小实战
  14. bigdecimal判断等于0_Linux | shell脚本-比较判断和运算语句
  15. oracle建表 和 设置主键自增
  16. 一句python,一句R︱列表、元组、字典、数据类型、自定义模块导入(格式、去重)
  17. 【翻译】YARN Architecture
  18. 9012 年了,Array 数组的方法赶紧用起来!
  19. ESP8266 WIFI探针
  20. bazel 链接第三方动态库_谷歌携手OPPO共同开发CameraX技术,第三方拍照应用有福了...

热门文章

  1. WEB端体温单,留念
  2. mongodb管理工具 RoboMongo
  3. 数值法求解最优控制问题(〇)——定义
  4. 成员信息 c语言,C语言工会成员信息管理系统.doc
  5. GB4793.1试验学习(二)
  6. 7.0 + 拍照异常了解一下
  7. 佳能EOS 450D固件升级过程
  8. 搭建开发平台—WTK
  9. spyder(anaconda3)进行汉化
  10. android 车牌键盘,支持新能源,警车,军车,领事馆车,特种车辆(源代码)