目录

  • 引言 一场生活、工作与思维的大变革
  • 第一部分 大数据时代的思维变革
    • 01.更多
    • 02.更杂
    • 03.更好
  • 第二部分 大数据时代的商业变革
    • 04.数据化
    • 05.价值
    • 06.角色定位
  • 第三部分 大数据时代的管理变革
    • 07.风险
    • 08.掌控

引言 一场生活、工作与思维的大变革

总结: 作者通过举出事实例子,告诉我们一个全新的时代已经到来,这个时代它不是快要或者就要而是已经到来 (以2010年以前来看)。大数据时代最鲜明的标签便是

  1. 更大(more comprehensive)
  2. 更杂(more complex)
  3. 更好 (focus on relationship)

掌握了大数据便是掌握了一枚打开未来世界的钥匙。没有接受改变没有准备改变的人注定是要被淘汰的。

第一部分 大数据时代的思维变革

01.更多

所谓更多,指的是更加全面,样本=全体。巨细无遗的包含所有的数据。以传统的抽样统计作对比,指出传统的抽样统计只是一种捷径,而这种只关注点从而推出面的方法是因为时代局限所导致。传统的采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大,所以当样本数量到达了某个值之后,我们从新个体身上得到的信息越来越少,当收集和分析数据都不容易时,随机采样就成为应对信息采样困难的办法。这使得随机采样成为采样统计的新方法并快速的普及。但是,这不过是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在着许多固有缺陷。1

  1. 它的成功依赖于采样的绝对随机性但是现实采样的随机性非常困难。一旦采样过程中存在任何的偏见,分析的结果就会相差甚远。以调查民调为例子,如果只考虑到固定电话就会面临采样缺乏随机性的问题,因为没有考虑到移动电话的用户,没有考虑到这些用户自然得不到正确的预测。
  2. 随机采样不适合考查子类别的情况。因为一旦继续细分随机采样的结果的错误率会大大增加。假设完全随机的选取1000人来代表全民民调,当把这1000人以性别、地域、和收入进行细分时就不可能通过“东北部的富裕女性”细分出的几十个人来代表整个“东北部的富裕女性”选民的意愿。而且,一旦采样过程中存在任何偏见,在细分领域所得到的预测就会大错特错。因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域就失去了作用。
  3. 随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题,而且随机采样的结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

02.更杂

在随机采样中,收集的信息有限意味着细微的错误会被放大,甚至影响到整个结果的准确性,所以随机采样会致力于减少错误,保证质量。但是,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点而非缺点。因为放松了容错标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。大数据时代追求数据的精度是很难实现的,所以接受错误接受混乱才能加大处理数据的规模和能力。
在自然语言处理领域中的翻译,一组词通常会有多种可能的意思,在特定的语境下会有特定的意思。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,在这种情况下明确的教会电脑这些是非常不现实的。以法语中的“bonjour”为例子,它的意思就一定是“早上好”吗?有没有”今天天气不错“、"吃了吗”或者“喂”?事实上都有可能。
20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇想比,他们试图让计算机自己估算一个词或者词组适合用于翻译另一种语言中一个词和词组的可能性,然后再决定某个词和词组在另一种语言中对等词和词组。于是20世纪90年代,IBM这个名为Candide的项目花费了大概十年的时间,将大约有300万句之多的加拿大会议资料翻译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。看来计算机翻译能力在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。
2006年,谷歌公司也开始涉足机器翻译。这被当做实现“收集全世界的数据资源,并让人人都可以享受这些资源”这个目标的一个步骤。谷歌开始利用一个更大更繁杂的数据库,也就是全球互联网。它会接收各种各样的数据,不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。而相较于同类翻译,谷歌的翻译质量相对而言还是最好的。而谷歌的翻译之所以更好并不是因为它有一个更好的算法机制,这是因为谷歌翻译增加了各式各样的数据。从谷歌的例子来看,他之所以能比IBM的Candide系统多利用成千上万的数据,是因为他接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自互联网的一些废弃的内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。
从某种意义上,谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌的语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点。大数据基础上的简单算法比小数据基础上的复杂算法更加有效,而其中的关键便是混杂

03.更好

在大数据时代,我们很难去一个个去探究数据背后的原因,所以我们应当把视角中心放在相关关系上。相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会增加,相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。但是严格的来讲,即使没有相关性,另一个数据值的也可以大幅变化,只是没有趋势可寻罢了。所以,寻找相关关系来分析一个现象,只是可能性,并不是绝对的。就像证实学家纳西姆·尼古拉斯·塔勒布 (Nassim Nicholas Taleb)所言,

我们可能只是“被随机性所愚弄”而已。

利用相关关系进行分析的关键便是寻找关联物,通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种被称为预测分析法的方法就被广泛的应用。它可以预测事情的发生,这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛的采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录发散的热量、振幅、承压和发出的声音等。
一个东西要出现故障,不会是瞬间的,而是慢慢地出现问题的。通过收集所有的数据,我们可以预先捕捉到事物要发出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明他们可能要出故障了。系统把这些异常的情况与正常的情况进行对比,就会知道什么地方出了毛病。通过尽早的发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。在大数据时代,分析现象背后的原因已经无关紧要了,在现代化的工厂中布满了各种传感器。因为一旦设备的某个零件有问题,就只有在更换了零件之后生产才能运行。收集和分析数据的花费可比出现停产的损失小得多。预测性分析并不能解释故障可能发生的原因,只会告诉你存在什么问题。也就是说它并不能告诉你引擎过热的原因是为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。为什么?因为这些“鸡皮蒜毛”的小事情都是不可直接预料甚至不可避免的,所以在大数据时代就没有去追求其背后原因的必要了,注重效率解决问题,利用相关关系预测“结果”,而不是一味的追根溯源顺腾摸瓜式的找到“原因”

第二部分 大数据时代的商业变革

04.数据化

“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”。如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。而,数据化——这是指一种把现象转变为可以制表分析的量化形式的过程。 量化的目的就在于增加一切获取数据的方法。 当把万事万物皆数据化后,便会激发出前所未有的潜力
当文字被数据化后,便能揭示出一个词以及词组第一次出现的时间以及成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹。当文字变成数据,它就大显神通了——人可以用之阅读,机器也可以用之分析。
当方位变成数据,便可揭示出原先所不存在的新分析法,随着汽车装上了无线电传感器,地理位置信息的数据化深刻的变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司更好的为车险定价。数据化实时位置信息在人身上的运用最为显著。多年来,无线运营商通过分析收集这些信息来提升移动互联网的服务水平。不过,这些数据越来越被第三方来利用。比方说,一些智能收集的应用程序也不管它本身是否具有定位功能,就收集位置信息;还有一些应用程序就是为了获得用户的位置信息而存在的。
当沟通变为数据,社交软件公司便可利用数据创造新的价值。一些消费者信贷领域的创业公司正在考虑开发以Facebook社交图谱为依据的信用评分。FICO,信用评分系统,利用15个变量来预测单个借贷人是否有能力去偿还一笔贷款。一家贷款公司的内部研究显示,个人会偿还贷款的可能性和其朋友会偿还贷款的可能性呈正比。正应了一句老话:

物以类聚,人以群分。

因此,Facebook也可以成为下一代FICO。
有了大数据的帮助,我们不会再将世界看作是一连串我们自认为是自然或社会现象的事件,我们会意识到本质上世界是由信息构成的。将世界看作是信息,看作可以理解的数据的海洋,为我们提供了一个未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观

05.价值

不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看见冰上一角,而绝大部分则隐藏在表面之下。明白了这一点,那些创新型企业就能够提取其潜在价值并获得潜在的巨大利益。最终,数据的价值是其所有可用的总和。这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的“潜在价值”。
随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和的价值更大。
随着数据存储成本的大幅度下降,企业拥有了更强的经济动机来保存数据,并再次用于相同或者类似的用途。但是,其有效性是有限的。随着时间的推移,大多数据都会失去一部分的基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如你十年前在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。如果亚马逊继续用这个数据来向你推荐其他书籍,你就不太可能购买带有这类标题的书籍,甚至会担心该网站之后的推荐是否合理。这时面临的挑战就是如何得知哪些数据不再有价值。仅仅依靠时间来判断显然不够,因此,亚马逊等公司建立了复杂的模型帮助自己分离有用和无用的数据。
然而并非所有的数据都会贬值,即使数据用于基本用途的价值会减少,但潜在的价值却依然强大。

06.角色定位

在大数据时代,在大数据链中有3种角色,分别是:

  1. 基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量的数据,却不一定有从数据中提取价值或者利用数据催生创新思想的技能。
  2. 基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。
  3. 基于思维的公司。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。

对于大数据掌控公司,大数据最值钱的部分就是它本身,所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人,但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。
对于大数据技术公司,大数据拥有者依靠技术专家来挖掘数据的价值。但是,虽然受到了高度的赞扬,而且同时拥有“数据武士”这样时髦的名字,但技术专家并没有想象中那么耀眼。他们在大数据中淘金,发现了金银珠宝,可是最后却要把这些财富拱手让给大数据拥有者。
对于大数据思维公司和个人,他们的优势就在于,他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行性。
所谓的大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
现在来到了大数据时代后,自然有了相应的职业人。那便是“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人挖掘。随着数据价值转移到数据拥有者的手上,传统的商业模式也被颠覆了。对于中间商来说,公司之间不愿意进行数据共享的问题会让他们感到很头疼。虽然如此,但是作为数据中间商,它的运行完全是依靠多种多样的数据来源。
大数据时代,专家开始消亡与数据科学家的崛起。这代表从主观到客观的转变。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。

第三部分 大数据时代的管理变革

07.风险

在大数据时代,我们可能暴露在无处不在的“第三只眼”之下。我们个人生活的轨迹被转换为了各种各样的数据。这些数据可能会被用在对个人不利的地方。
在大数据时代,大数据的价值不再单纯来源于它的基本用途,而更多的来源它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了那些数据、作何用途,也必须在收集工作开始之前征得个人同意。但是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。这样一来“告知许可”就完全没有意义了。
在大数据时代,预测犯罪会成为可能。人们将会不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。但是,着很危险,因为如果我们可以用大数据预测犯罪,我们就可能会想进一步惩罚这个未来的罪犯。这也是符合逻辑的,因为我们会觉得如果只是阻止了他的犯罪行为而不采取惩罚措施的话,他就可能因为不受损失而再次犯罪;如果我们因为他为实施的犯罪行为而惩罚他的话,可能就会威慑到他。基于未来可能行为之上的惩罚是对公平的亵渎是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。如果大数据分析完全准确,那么我们的未来会被精确地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精确的预测成为现实的话,我们会失去自由意志,失去自由意志生活的权利。既然我们别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?
在大数据时代,我们可能会被数据独裁,过于依赖数据,而数据远远没有我们所想的那么可靠。与数据为伴的人可以总结为一句话:

错误的前提吊事错误的结论

其实,卓越的才华并不需要依赖数据。只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。

08.掌控

当世界开始迈向大数据时代时,社会也会将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已经在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年的时间。
过去,隐私规范都开始让人们自主决定是否、如何以及由谁来处理他们的信息,这种控制权放在了人们自己手中,这也是隐私规范的核心准则。在互联网时代,这个伟大的理想往往会演变成“告知于许可”的公式化系统。在大数据时代,因为数据的价值恒大一部分体现在二次用途上,而收集数据时并未作这种考虑,所以“告知与许可”就不能起到很好的作用了。在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应当更看重数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。
目前,大数据的运作是在一个超出我们正常理解的范围之上的。他就像个巨大的黑匣子。而打破这个黑匣子的人,便是算法师。他们是为了更加专业规范的审计数据的运作方式,数据的安全,数据的价值的等存在的。在未来,这个职业的人群将会越来越多。


  1. 假如抽样的对象更加复杂,例如是一个网络,那么根本找不到一个“最优抽样”的标准,不可能奢求抽样得到的小网络能反映总体的所有结构特性。 ↩︎

[读书总结]大数据时代相关推荐

  1. 5000字 大数据时代读书笔记_读书笔记 大数据时代

    当然,行业专家是不会真正消亡的,只是他们的主导地位会发生改变.未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样.这改变了我们怎样看待知识的价值,因为我们 ...

  2. 《大数据时代》读书笔记——知道“是什么”就够了,没必要知道“为什么”。我们不必非得知道现象背后的原因,而是要让数据自己“发声”

    引言--一场生活.工作与思维的大变革 今天,一种可能的方式,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的.大数据是人们获得新的认知 ...

  3. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  4. 《大数据时代》读书报告

    未来已来 --<大数据时代>读书报告 课程:商务数据分析 学号: 姓名: 引言 维克托·迈尔·舍恩伯格在其<大数据时代>中的前言开宗明义:一场生活.工作与思维的大变革,大数据开 ...

  5. 《大数据时代》读书笔记

    大数据开启了一次重大的时代转型.就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发-- 大数 ...

  6. 5000字 大数据时代读书笔记_《大数据时代读书笔记》

    大数据时代读书笔记 本书在讲些什么? <大数据时代>的一大贡献在于大数据方兴未艾.众说纷纭的时刻,进一步 阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是"数据大&qu ...

  7. 5000字 大数据时代读书笔记_大数据时代 读书笔记

    大数据时代 维克托·迈尔·舍恩伯格 首先作者抛出了大数据时代处理数据理念上的三大转变:  要全体不要抽样. 首先,要分析与某事物相关的所有数据,而不是依 靠分析少量的数据样本.全数据模式,样本 = ...

  8. 《大数据时代》(维克托·迈尔·舍恩伯格)读书笔记

    观点摘录 序言引言 推荐序一 推荐序二 译者序 引言 第一部分 大数据时代的思维变革 01 不是随机样本,而是全体数据 02 不是准确性,而是混杂性 03 不是因果关系,而是相关关系 第二部分 大数据 ...

  9. 《大数据时代》读书总结

    这本书从以下几个方面阐述了我们所处的时代是如何展现"大数据"的: 1. 首先是大数据时代的思维变革.思维为什么需要变革?怎样变革? 思维需要变革的第一个原因是,这个时代获取和处理数 ...

最新文章

  1. ueditor上传图片回调_(常见解决方法)UEditor报错“后端配置项没有正常加载,上传插件不能正常使用”...
  2. 打开服务器文件提示内存不够,打开服务器文件提示内存不够
  3. wordpress 怎么获取站点标题
  4. python选项卡控件_python GUI库图形界面开发之PyQt5选项卡控件QTabWidget详细使用方法与...
  5. 2017计算机基本配置检测表,2017整理如何查看电脑的硬件配置信息?查看电脑硬件配.ppt...
  6. 列表逆序排序_【Python自学笔记】集合——列表
  7. docker-1 初识docker
  8. python matplotlib.pyplot 填充曲线下面积
  9. 说说看:如何把自己的导师培养成杰青?
  10. pylot网站压力测试
  11. C#:SQL查询结果生成datatable后,根据min、max查询datatable中min到max的数据,并生成新的datatable
  12. 网站被移动运营方屏蔽怎么办?
  13. 第三篇 ME909s-821设备描述符分析
  14. C#文件操作——文件、数据流与注册表
  15. Vue3——Suspense组件
  16. ai智能电话机器人在我们的生活中扮演什么角色
  17. live2d看板娘一览图
  18. Echarts — 绘制省级地图
  19. 【光通信】常见光模块与光纤收发器说明及作用区别
  20. 多模态自编码器从EEG信号预测fNIRS静息态

热门文章

  1. 手机里舍不得删除的48条搞笑短信
  2. Linux之磁盘配额
  3. ​你在淘宝剁手,钱却可能进入黑客的口袋
  4. JSF Chapter11
  5. 阿里面试题-判断是不是一个IP地址的测试用例设计(Python实现)
  6. 华为正式发布鸿蒙 2.0,更新人数太多挤爆服务器,P50 也官宣了!
  7. Ubuntu sudo apt-get 安装下载更新软件包命令详解
  8. 2022骨传导蓝牙耳机推荐,最好用的几款骨传导耳机
  9. Kanzi Shader入门
  10. 怎么对document.write写出来的内容调整对齐方式_【求职技巧】给少数人:硅谷BAT级别的简历这么写...