观点摘录

  • 序言引言
    • 推荐序一
    • 推荐序二
    • 译者序
    • 引言
  • 第一部分 大数据时代的思维变革
    • 01 不是随机样本,而是全体数据
    • 02 不是准确性,而是混杂性
    • 03 不是因果关系,而是相关关系
  • 第二部分 大数据时代的商业变革
    • 04 数据化:一切皆可“量化”
    • 05 价值:“取之不尽,用之不竭”的数据创新
    • 06 角色定位:数据、技术与思维的三足鼎立
    • 07 风险:让数据主宰一切的隐忧
    • 08 掌控:责任与自由并举的信息管理

序言引言

推荐序一

一个大规模生产、分享和应用数据的时代正在开启。

大数据的真实价值就像漂浮在海洋中的冰山,绝大部分都隐藏在表面之下,而发掘数据价值、征服数据海洋的“动力”就是云计算。
以云计算未基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来,并随时进行分析与计算,大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法

大数据发展的障碍,在于数据的“流动性”和“可获取性”。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。

推荐序二

人们主要依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。所以人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。

大数据的出现,使得利用数据分析结果获取知识、商机和社会服务的能力的门槛降低,门槛的降低直接导致了数据的容错率提高和成本的降低,人们可以在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清两者为何相关可以留给学者们慢慢研究

大数据逐渐成为现代社会基础设施的一部分,就像公路、铁路,但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为使用而折旧和贬值(本书阐明会折旧和贬值,只能说序言作者意思想表示程度不同)。

译者序

本书内容:
大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后,作者面熟了大数据帝国千叶的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。

译者观点:(可我觉得原作者并没有这么极端)
对于大数据时代“相关关系比因果关系更重要”这个观点不认同,与其说是大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们如此。
认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义魅影,绝非大数据自身的诉求。

苏珊·朗格在《哲学新视野》一书中说:
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。
(种草,最喜欢科学上升到哲学了)
大数据是一个很重要的概念,代表了很重要的趋势,但并不是一种放之四海而皆准的万能概念——因为越是万能的,就越是空洞的。《文化的解释》中人类学家克里福德·吉尔兹劝说:努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。
(醍醐灌顶)

引言

变革公共卫生
可预测冬季流感
变革商业
带来创业盈利机会
变革思维
获得新认知、创造新价值的来源

大数据的核心是预测。大数据不是教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。

(第1-3章)
大数据的精髓在于我们分析信息时的三个转变。
第一个转变是,在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
第二个转变是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变,因前两个转变而促成,即我们不再热衷于寻找因果关系。我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从没意识到的联系的存在。
(第4章)
“数据化”概念
模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要一步。数字化将模拟数据转换成计算机可读取的数字数据。
大数据时代开启了数据化的变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
(第5-6章)
大数据如何改变了商业、市场、社会的本质
(第7章)
大数据的负面影响
危险不再是隐私的泄露,而是被预知的可能性
(第8章)
大数据时代倡导的一系列规范

第一部分 大数据时代的思维变革

01 不是随机样本,而是全体数据

讲第一个转变。
很长一段时间依赖,准确分析大量数据对我们而言是一种跳帧,因为收集和处理大规模数据的能力有限。
仅用一部分数据不如采用所有数据,但数据量大时又不现实,所以,有目的地选择最具代表性的样本是最恰当的方法,但问题的关键是选择样本时的随机性。
采样分析的精确性随着采样随机性的增大而大幅提高,但与样本数量的增加关系不大。
随机采样是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。

大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,即全数据模式

02 不是准确性,而是混杂性

讲第二个转变。

对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

允许不精确的出现已经成为一个新亮点而非缺点。随着数据的增加,错误率也会增加。在整合来源不同的各类信息的时候,也会加大混乱程度。混乱还可以指数据格式不统一。在处理数据时,混乱也会发生。

大数据让我们不再期待精确性,也无法实现精确性。
但错误性不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是我们亟需去处理的现实问题,并且有可能长期存在。

要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。(我不理解这句话)

相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂型,帮助我们进一步接近事实的真相。当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。因为局限于狭隘的小数据中会错过事物的全貌。

03 不是因果关系,而是相关关系

建立在相关关系分析法基础上的预测是大数据的核心。

相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。

小数据时代,我们会假想世界是怎样运作的,然后通过收集和分析数据来验证这种假想。大数据时代探索世界,不再受限于各种假想,我们的研究始于数据。
假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们仍然需要理论。
大数据是在理论的基础上形成的。
(1)关于怎么收集数据,我们会不会仅看数据收集的方便程度来决定?或者看数据收集的成本?我们做这些决定的时候就被理论所影响着
(2)在分析数据时,也依赖于理论来选择我们使用的工具
(3)解读研究成果时同样会使用理论
大数据时代绝不是一个理论消亡的时代,理论贯穿于大数据分析的方方面面。

第二部分 大数据时代的商业变革

04 数据化:一切皆可“量化”

数据化 指一种把现象转变为可制表分析的量化形式的过程
数字化 指的是把模拟数据转换成用0和1表示的二进制码,这样电脑就可以处理这些数据

05 价值:“取之不尽,用之不竭”的数据创新

过去,一旦数据的基本用途实现了,我们便认为数据已经达到了它的目的,准备将其删除。而在大数据时代,数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。数据的潜在价值有下列释放方式:
(1)基本再利用
典型例子:搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。但可以让客户采集搜索流量来揭示消费者喜好。
(2)数据集整合
处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,可以做出有创意的东西来。
随着大数据的出现,数据的总和比部分更有价值。当我们多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
(3)寻找“一份钱两份货”
促成数据再利用的方法之一是从一开始就设计好它的扩展性。虽然并不总是可能的,因为人们可能在数据收集后很长时间才意识到这一点。
比如在零售商店里安装监控摄像头,不仅能起到安防作用,还能跟踪客户流和他们停留的位置。零售商也可以利用后面的信息涉及店面的最佳布局并判断营销活动的有效性。
“一份钱两份货”即某种方式收集的单一数据集有多种不同的用途。
(4)数据的折旧值
随着时间推移,大多数数据都会市区一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
因此需要不断更新数据库并淘汰无用信息,这时面临的挑战就是如何得知哪些数据不再有价值。仅依赖时间来判断显然不够。
然而并非所有的数据都会贬值。即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
(5)数据废气
数据废气:用来描述人们在网上留下的数字轨迹。用户在线交互的副产品,包括浏览了哪些页面,停留了多久、鼠标光标停留的位置、输入了什么信息等。

(6)开放数据
提取政府数据价值最好的方法是允许私营部门和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。

通过查看公司“账面价值”(大部分是有形资产的价值)来确定企业价值的方法,已经不能充分反映公司的真正价值。公司账面价值和“市场价值”(即公司被买断时在股票市场上所获得价值)之间得差距在这几十年中一直在不断的扩大。公司账面价值和市场价值之间的差额被记为“无形资产”。
投资者也开始注意到数据的潜在价值,拥有数据或能够轻松收集数据的公司,其股价会涨。

06 角色定位:数据、技术与思维的三足鼎立

我们正处于大数据时代的早期,思维和技能是最有价值的,但最终大部分的价值还是必须从数据本身中挖掘。
真正的行业专家是不会真正消亡的,只是他们的主导地位会发生改变。未来,大数据人才会与他们地位一致。

07 风险:让数据主宰一切的隐忧

隐私:在大数据时代,告知与许可、模糊化及匿名化,这三大隐私保护策略都失效了。
预测:企业和政府采集个人信息的能力,没有大数据所引起的另一个新问题让我们更恐慌,那就是预测我们。
依赖:大数据威胁了我们的隐私与自由,但它也加剧了一个旧威胁,过于依赖数据,而数据远没有我们所想的那么可靠。

08 掌控:责任与自由并举的信息管理

管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
大数据时代,数据的价值很大一部分体现在二级用途上,而收集数据时未作这种考虑,所以“告知与许可”不能再起到好的作用。
需要设立不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将中心放在收集数据之初取得个人同意上。
监管机制可以决定不同种类的个人数据必须删除的时间,再利用的时间框架则取决于数据内在风险和社会价值观的不同。

管理变革2:个人动因&预测分析
身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来。
社会越是用干预、降低风险的方式取代为自己的行为负责,就越会导致个人责任意识的贬值。主张预测的国家是保姆式的国家,而且远不止如此。否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。

管理变革3:击碎黑盒子,大数据算法师的崛起
大数据的运作是在一个超出我们正常理解的范围之上的。我们能看到大数据预测、运算法则和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪,因而我们对其信心全无。
为了防止这些情况的出现,大数据将需要被检测并保持透明度,大数据将要求一个新的人群来扮演这种角色,他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。
他们评估数据源的挑选、分析和预测工具的选取、运算法则和模型、计算结果的解读是否正确合理。
当人们认为他们受到大数据预测危害——被拒绝手术、被拒绝假释、被拒绝抵押贷款时,可以向算法师咨询并针对这些决定提起诉讼。

管理变革4:反数据垄断大亨
为了促进大数据平台上的良性竞争,政府必须运用反垄断条例,防止21世纪数据大亨的崛起。
主要可以有三项策略:
(1)隐私保护从个人许可到数据使用者承担责任的转变
(2)使用预测分析时考虑个人动因
(3)催生大数据审计员,也就是算法师,对信息进行有效、公正管理的基础

大数据标志着“信息社会”终于名副其实
怀有谦恭之心,铭记人性之本

《大数据时代》(维克托·迈尔·舍恩伯格)读书笔记相关推荐

  1. 大数据时代维克托·迈尔·舍恩伯格 读书笔记

  2. 大数据时代---维克托•迈尔•舍恩伯格

    最近闲着无聊,本着好奇的心态,就下了本舍恩伯格的大数据时代看看,不看还好,一看就舍不得扔下,惊叹于他的创造性思维,更佩服他的远见,下面是我感受颇深的几点. 1.大数据时代,数据的样本之多,关系错综复杂 ...

  3. 大数据时代(维克托·迈尔·舍恩伯格)pdf

    下载地址:网盘下载 图书简介 编辑 <大数据时代>是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为"大数据商业应用第一人",拥有在哈佛大学.牛津大学.耶 ...

  4. 《大数据时代》作者维克托·迈尔-舍恩伯格:爆发式创新 云中大数据如何赋能下一轮经济增长...

    5月18日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办.英国牛津大学教授.<大数据时代>作者Viktor Mayer-Schönberger(维克托 ...

  5. 《大数据时代》-[英]维克托.迈尔-舍恩伯格 肯尼斯.库克耶

    写在前面:对象:所有数据 行为:模糊多样性而不是精确唯一性 追 求结果:相关性而非因果性 通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见. a) 建模是一件非常重要且了不起的事情.原 ...

  6. 《大数据时代》(维克托·迈尔舍恩伯格) 小记

    最近把<大数据时代>(viktorMayer-Schonberger & Kenneth Cukier,ISBN:978-7-213-05254-5) 读完了.对即将来临的大数据世 ...

  7. 删除:大数据取舍之道(英)维克托·迈尔-舍恩伯格pdf

    链接:https://pan.baidu.com/s/186JS69LPHkOR4pXQfTCHwA  提取码:aoc7 无解压密码,有心留个赞0.0

  8. 大数据能做些什么——舍恩伯格纵论大数据时代

    未来竞争优势将来自于何处呢?不一定来自于制造,而是来自于数据,还有收集.分析和使用数据的能力.大数据时代,那些能够提供功能最为丰富.数据量最大的数据平台的公司将在竞争中获胜. 沃尔玛的大数据部门发现, ...

  9. 《BIG DATA大数据日知录 架构和算法》读书笔记

    2019独角兽企业重金招聘Python工程师标准>>> <BIG DATA大数据日知录 架构和算法>读书笔记 博客分类: 架构 分布式计算 1.数据分片和路由 Hash ...

最新文章

  1. [SAP ABAP开发技术总结]EXIT-COMMAND
  2. java中的与运算符
  3. Angular7 ng-zorro-antd 制作右键菜单
  4. windows和linux的协议栈驱动
  5. Qt Creator 窗体控件自适应窗口大小布局
  6. mysql查看事件任务内容_MySql事件计划任务
  7. Log4j漏洞?一行代码都不改就能永久修复?
  8. docker 数据卷 mysql_Docker 入门教程(五)数据卷 Volumes
  9. C#多线程和异步(二)——Task和async/await详解(转载)
  10. 数组作为方法的返回值
  11. notepad++列编辑操作
  12. 2020行政区划重新划分_邯郸市的20年,2000年-2020年区划对比,你觉得成绩如何?...
  13. Padavan 老毛子路由器登录SSH教程
  14. HttpWatch工具简介及使用技巧 (转自:卖烧烤的鱼)
  15. word文档 文献尾注修改样式
  16. chrome+链接android手机,为什么android手机限制chrome浏览器数据连接还可以上网
  17. Designing Data-Intensive Applications翻译
  18. Android——集地图、定位、导航于一体
  19. VMWare的安装和虚拟机的新建
  20. 使用BeautifulSoup爬取小猪短租的租房信息

热门文章

  1. 射击类游戏的制作思路
  2. 反素数 Antiprime(信息学奥赛一本通 1625)(洛谷 1463)
  3. 如何培养员工的团队合作精神
  4. spring基础概述
  5. 【imx6ul】imx6ul上电boot rom启动过程
  6. WEB前端项目实战/酒仙网开发-李强强-专题视频课程
  7. Caused by: java.sql.BatchUpdateException: ORA-00001: 违反唯一约束条件 (DSPACE.SYS_C007868)
  8. svn的客户端从安装到运行
  9. springboot整合阿里云短信验证(无需签名和模板,通过阿里云api测试实现短信验证)
  10. 2023java面试看完这篇笔记薪资和offer稳了!