智能时代-大数据与智能革命重新定义未来（吴军）-核心书摘

本文主要摘录于全书正文，部分解释是博主根据自己生活体验增加的理解，欢迎大家共同讨论更正~

机器学习爱好者交流QQ群：1023 119 142

为新手提供机器学习资料，也欢迎大佬来分享知识。

本书目录

第一章：数据—人类创造文明的基石

现象、数据、信息、知识

数据的作用：文明的基石

第一章：数据—人类创造文明的基石

数据>信息>知识一步一步提炼升华的结果

数据的相关性—发掘信息价值的钥匙

结论D，可以通过数据A,经过B ,C的关联性找到D.这种关联性，有的是常识性的有的是非常识性的。

传统统计学，大的数据量+有代表性的样本得出的结果才有意义。

但获取大量数据和建立代表性数据样本很难

大量数据+多个简单模型组合可以代替一个复杂的模型。

Eg: 德国直接用高制造技术制造高水平镜头，但不能量产。

日本通过过镜头组合可以实现参不多效果，但是可量产，价格更便宜。

模型选择~模型调参对于问题拟合两个比较重要的要素。

切比雪夫不等式（正态分布）

概率论上：当观察到足够多的数据时，随机性和噪声可以忽略不计

第二章：大数据和机器智能

图灵测试，一种对人工智能的定义。

人工智能1.0 鸟飞派主要以模仿人类来设计人工智能进行特征提取

是一个专家的时代，并且某些特征覆盖并不是很全。

与之对应的是现代的方法，数据驱动。

机器智能最重要的是能够理解人脑解决的问题，而不在于是否采用和人一样的方法。

贾里尼克区别于传统特征提取方法，把语音识别作为一个通信问题

人脑发声—信息源声波空气传播—信道耳朵接受—解码

使用马尔科夫模型描述信源和信道，使用数据驱动，而不是传统的语言学家根据经验进行特征提取，随着数据量加大，系统就会更好。

数据驱动，数据的重要性就相当大。

现在深度学习的感觉其实也是一种结合，神经网络也有一定的仿生意味，加上了大量的数据训练，得到的结果远远好于传统方式。数据驱动激活了神经网络。

在CV ,NLP领域，通过技术进步，每年大约能改进0.5%

大数据特征

多样性-多维度 是数据有效的，有信息量，有价值的关键

（大数据驱动区别于传统问卷调查更具有真实性，因为人们是在没有压力情况下主动提供的数据）

大量-完备性 大数据可以做到样本即是全集，通过覆盖面，让数据更精准

（预测美国大选，有个最无脑的方法，就是知道每个州每个人在想什么。可以通过互联网爬取相关信息，进行统计，只要知道了大概比例（抽样的思想，但比问卷更真实），就可以推断结果）

及时性 不是必须，但在特定领域（智能交通）等方便很重要

NLP领域，难回答的问题是 WHY,HOW. 容易的是WHAT WHERE WHEN WHICH WHO

第三章：思维的革命

从信息论的角度，数据中的信息可以消除不确定性，数据之间的相关性可以取代原来的因果性。

机械思维，逻辑推理，让人们感到确定性的放心，一种自信。

托勒密方法论：

找到一个数学元模型，这个模型要和历史数据吻合。

缺陷，整体模型复杂，因为用了基础的圆来拼接模型

确定性假设，一旦模型确定，即认为真理。

笛卡尔方法论，大胆假设，小心求证。（很科学）

这个也是目前科学还在沿用的。

牛顿的机械思维：

1世界变化规律是确定的

2可以用简单的公式和语言描述

3这种规律应该是通用的

也就是科学是一层一层推理出来的。

获取数据信息知识，这个过程需要很多代人的积累。

机械思维取得巨大成就，第一次工业革命，蒸汽。第二次工业革命，电力。极大的推动了人类社会的进步。

看问题要看本质，瓦特改良蒸汽机的动机不仅仅是设计一个机器，而是要通用的为工业提供动力。

机械思维的核心：确定性和因果性。

因果性：

医学药理上，找到真正的致病原因，然后针对这个原因找到解决方案。

分析找到原因，根据原因找到结果。

问题出现：

并不是所有的事情都是可以用简单的原来描述。

在目前信息时代，简单的因果规律都已经被发现了，想要和以前一样找到简单的因果关系，很难。

不确定性的时代：

不确定性原因：

确定世界里相关因素过多，无法全部考虑进来，也变成不确定
客观世界自己的不确定性，例如微观世界

信息论：信息熵

信息的度量就等于不确定性的多少。

把智能问题转化为消除不确定性的问题。数据的关联性，提供信息，帮助消除不确定性。

交叉熵常用来度量一致性

从因果关系到强相关关系

医药行业，由于研发周期长，投入大，但有效的专利保护期相对较短，导致特效药很贵。

强相关思维，现有处方药和现有疾病进行一一匹配，如果A药对B病有效，再进入验证期，如果通过验证期，时间3年左右，开发成本只是传统的1/10.只要保证验证合格就行。

例如以前治心脏的药，反而能治疗男性疾病。

大胆假设，小心求证的思想。

这种思维，前提是需要有足够多的数据支持。

数据发掘出强相关性 ≈ 因果性

非确定世界确定世界

辩证看因果和强相关的关系

能找到直接因果当然更好，不是否定因果。只是有时发现因果需要一定的灵感和运气（比如牛顿，爱因斯坦发现的物理学公理，又有多少人可以发掘）

能通过机械思维直接发现 确定性和因果性当然是最好的，只是数据驱动提供一种补充。

数据驱动的强相关关系，相当于一种捷径，让我们不会因为运气而被问题难倒。

第四章：大数据和商业

关注原来无法关注的细节，主要原因是原理人工关注成本太高，然后从数据中发现异常。

（具体用电细节监控，帮助美国发现室内种植大麻的房子。帮助发现偷税漏税）

数据也能够帮助发现特殊行为，比如商家通过数据分析，精准向孕妇群体推送不同时段所需的商品。

通过牺牲现在有的计算资源，重新认识穷举法的意义，也是大数据完备性的意义。

谷歌无人汽车有个细节，就是在街景收集过的地方表现得会更好，前往一段未知的路，就会表现差。因为在通过已有街景数据的道路时，大部分数据已经提前处理过。实时只需要处理少部分信息即可。如果全部靠实时采集数据再处理，计算量过大，实时性可能无法保障。

这种方式就是通过事前提供完备性来解决一些难题。虽然只能走在走过的路很傻，但现在的技术水平以及道路水平，是支持收录所有道路数据的，这也就是穷举法的一个应用吧。这就是机械思维下暂时找不到完美解，但通过数据可以弥补这个不足。

现有产业 + NEW = 新产业

现有产业 + 大数据 = 新产业

现有产业 + 机器智能 = 新产业

大数据现在其实分两部分，一部分是在大量数据下，通过传统方法进行数据分析，发掘数据价值。另一部分是，只是把大数据整理成养料，来投喂给机器智能，训练发掘出新的能力。

安迪-比尔定律：比尔要拿走安迪所给的。软件功能的增加和改进要不断吃掉硬件性能的提升，整个行业才能平稳发展下去。

+大数据等于很多新产业

小米前期卖手机给自己的定位就不是制造企业而是互联网企业。小米卖手机并不是只满足于挣卖手机的钱，而是吸纳用户，从用户身上获取长久的收益。

第五章：大数据和智能革命的技术挑战

每一次技术革命除了生产力的发展，还需要很多技术准备，只有这些技术都成熟了，技术革命才可能成功。

目前的现状

1数据的产生：目前数据增量很大

1电脑本身

2传感器

3现存的数据，包括非数字化数据。

2信息的存储：

一个是容量问题，一个是读写速度（数据量大了后的检索速度问题）

SSD的出现暂时满足了需求。

3传输的技术：

数据从采集端到收集端的通信问题。

目前5G已经有很好的解决

4信息的处理：

大数据情况下，计算量将相当庞大。相对于莫尔定律的硬件速度增加，简单的检索NLOGN会随着数据大量增加，让计算能力远远跟不上。

目前解决方案，分布式计算。分布式存储与任务分解运算。

各阶段的技术难题：

数据收集：

大数据的优点在于避免了统计学的采样之苦。

看似简单，但收集到具有多样性和完备性的数据需要很大代价，目前都是大公司通过智能设备收集。

好多廉价的智能设备其实并不廉价，他们都有一个隐藏任务，收集用户使用数据。

数据存储和表示：

目前数据量的增加还是对存储带来很大压力，由于数据安全性考虑，每份数据还不能只留一份，因此数量量尽管通过压缩，但还是要多留4倍，以考虑物理安全性。（没办法，只能硬存）

区别于传统的数据，大数据的多维度让关系型数据库已经不再适合，各种不同的数据结构，失去了数据格式的统一性，给后续调用使用带来很大问题。（开发非关系型数据库，提倡统一的大数据表示格式，例如GOOGLE的 protocol Buffer）

并行计算和实时处理：

并行计算并不是简单机器叠加，有些计算并不具备并行处理特性。

并行比例占95%，通过增加处理器的数量，最多只能加速20倍。

并行比例占50%，最多只能加到2倍。

计算任务成功拆分，由于子任务计算难度也不一样，最后并行计算时间会取决于最后完成的子任务时间。

因此，目前分布式计算主要是解决了规模问题，至少让大模型跑起来，但在时间上，加速有限。

由于分布式计算时间并不是想象中那么短，实际上反而很长，因此事实上对大数据实时处理是几乎做不到的。

数据挖掘：机器智能的关键

从传统网页上的数据，结构不一样，分析起来很难，需要很好的NLP要不根本处理不了。

大数据在使用前含有噪声，通常要进行降噪处理，损失一部分数据，提高信噪比。

由于机器学习都是不断迭代的过程（期望值最大化），不断迭代加上大量数据，导致计算复杂度过高。

在计算能力有限的时候，采用大数据+浅层模型，小数据+复杂模型，这样才能平衡计算量

从理论上讲，使用大数据加上深度模型，效果一定会很好，但现实计算有限。

在某些特定的问题上，某些机器学习模型确实表现比其他的好，但总体上来讲，大部分机器学习算法是等效的，只有量的差别，没有质的差别，而量的差别可以通过规模计算和数据来弥补。

由于目前机器学习特性，为了机器学习服务将由特定公司提供。这种数据聚集，牵扯出安全问题。

数据安全问题：

好多数据安全事件，制度设计和系统上没有问题，就是人员在实际操作为了方便没有执行

可以通过异常业务流程和行为习惯发现系统是否被他人使用。

保护隐私：

大数据最尖锐的问题之一。

大数据时代，由于大数据的多维度和全面性的特点，简单屏蔽掉很多信息是可以从其他维度利用全面性恢复的。因此需要很多新技术。

搜集信息时对数据进行预处理，达到可以处理数据却看不懂数据。
双向监视

保护隐私最好的方法就是要让侵犯隐私的人拿自己的隐私来换（数据标识使用人信息）

总体上来讲，还是很难的呀，仅仅只能通过协议限制，不能完全技术手段规避。

第六章：未来智能化产业

未来农业：精准用水，精细化管理（只是部分地区会用，毕竟水有些地方不缺，虽然只需要用几十分之一的水，但管理成本可能更高）

未来体育：大数据战略分析，动作分析，协助日常训练

勇士队通过大数据分析，发现进攻型得分效率很低，3分球是最好的得分手段，主力培养神射手库里等）

未来制造业：大量机器人取代人工。

未来医疗：降级医疗成本，包括医生和药物的资源。

医生上，通过人工智能辅助，帮助提高效率。合理分配医生资源，让最紧急的病人得到最需要的医生，而不是医疗资源（专家号）被小病患者占据。有限制的医疗诊断机器人也能在一定程度上解决偏远地区，医疗资源少地区的医疗问题。机器人医疗机器人—达芬奇手术台，有些操作比人类还精细，能大大提高顶级外科医生的数量。

药物上，特别是目前绝症的治疗上，通过大数据穷举，降低个性化医疗的成本。

对于癌症，关键是杀死癌细胞。但癌细胞是因为基因错误复制产生，有第一次就有可能第二次，这种针对性药物可能就突然失效。

理论上，只有新药的研制速度快于癌细胞的变异速度，人就可以和癌细胞长期共存。但事实上在传统医药行业，新药开发时间长，成本高，世界上没有几个人能享受这样的资源。

利用大数据的无穷理解。所有可能的恶性基因复制错误和癌症的组合，不过几百万到上千万的可能，这个数量级在IT领域是很小的，但在医学上几乎无穷大。如果能为每种组合找到一种对应的药物编上号，以后只有检测出病变方向，就可以很简单的使用药物治疗。

药物上可以摆脱以前大众药才能审批通过的思想，就算药只对部分人有用，能够找到具体的受用人群，他也是有价值的。

未来律师，记者，编辑都会受到挑战。

第七章：智能革命和未来社会

智能化社会，智能交通等

（有些明显改善用户体验的方向可以研究，比如出现早出发5分钟，可以早到半小时；晚出发半小时，也只会晚到5分钟）

借助RFID识别出校园外来人员，用在更大区域可以用来反恐。

区块链用来追踪每一次交易，用来防伪。

从标准化到个性化服务，更好的利用资源。

隐私的重要性：

可能简单的数据使用就是推荐产品，有的人可能说我又不做坏事，数据拿去没用。

公司拿数据进行大数据杀熟还能接受的话，涉及到自己的医疗和健康就会让很多人失去公平的医疗资源。比如保险公司用数据分析觉得你未来得重病几率接近100，他就会给你拒保。但这样的话，医疗保险存在就没有任何意义了，只是保险公司挣钱的工具。

人们为什么会忽略大数据对个人隐私的威胁：

1不知道大数据的威力

2 把隐私的保护寄托给公司的善意

大数据可能会产生一个老大哥，即超级权利体。

工业革命受益人

第一：企业，精英阶级

第二：中心区域

第三：全球

工业革命会带来很大的副作用，需要半个世纪消化。

信息时代在美国普通家庭收入增加并不大，大的是TOP5%的人。

工业革命造成的剩余劳动力，只能慢慢等待他们退出劳动力市场，一般能加入新行业的比例极低。为了国家稳定，一般就是国家出钱养着这些人。有些国家不肯淘汰过剩产能，就是为了消化这些无所事事的人，根本解决路径就是耗。耗上两代，社会问题就解决啦。

信息时代更难受，不像前两次工业革命，可以开拓新的市场。如今的全球化，很少有市场可以开拓（非洲？）。

虽然现在的人工智能很傻，不能达到人的那种状态，但在某些领域甚至能达到专家水平，这就不仅仅是取代一些体力劳动者，部分脑力劳动者也会有危险（为了社会稳定，估计也是和专家辅助配合，消化劳动力）

当社会不去创造财富而只考虑分配财富，经济就开始衰退。社会公平只能体现在机会平等，而不是结果的平等，只要还有上升途径，就要努力加入他们而不是天天抱怨。