智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘

本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~

机器学习爱好者交流QQ群:1023 119 142

为新手提供机器学习资料,也欢迎大佬来分享知识。

本书目录

第一章:数据—人类创造文明的基石

现象、数据、信息、知识

数据的作用:文明的基石

相关性:使用数据的钥匙

数学模型:数据驱动方法的基础

第二章:大数据和机器智能

什么是机器智能

鸟飞派:人工智能1.0

另辟蹊径:统计+数据

数据创造奇迹:量变到质变

大数据的特征

变智能问题为数据问题

第三章:思维的革命

思维方式决定科学成就:从欧几里得、托勒密到牛顿

工业革命,机械思维的结果

世界的不确定性

熵—一种新的世界观

大数据的本质

从因果关系到强相关关系

数据公司Google

第四章:大数据和商业

从大数据中找规律

巨大的商业利好:相关性、时效性和个性化的重要性

大数据商业的共同点—尽在数据流

把控每一个细节

重新认识穷举法—完备性带来的结果

从历史经验看大数据的作用

技术改变商业模式

加(+)大数据缔造新产业

第五章:大数据和智能革命的技术挑战

技术的拐点

数据收集:看似简单的难题

数据存储的压力和数据表示的难题

并行计算和实时处理:并非增加机器那么简单

数据挖掘:机器智能的关键

数据安全的技术

保护隐私:靠大数据长期挣钱的必要条件

第六章:未来智能化产业

未来的农业

未来的体育

未来的制造业

未来的医疗

未来的律师业

未来的记者和编辑

第七章:智能革命和未来社会

智能化社会

精细化社会

无隐私社会

机器抢调人的饭碗

争当2%的人

第一章:数据—人类创造文明的基石

数据>信息>知识   一步一步提炼升华的结果

数据的相关性—发掘信息价值的钥匙

结论D,可以通过数据A,经过B  ,C的关联性找到D.这种关联性,有的是常识性的有的是非常识性的。

传统统计学,大的数据量+有代表性的样本得出的结果才有意义。

但获取大量数据和建立代表性数据样本很难

大量数据+多个简单模型组合  可以代替一个复杂的模型。

Eg: 德国直接用高制造技术制造高水平镜头,但不能量产。

日本通过过镜头组合可以实现参不多效果,但是可量产,价格更便宜。

模型选择~模型调参  对于问题拟合两个比较重要的要素。

切比雪夫不等式(正态分布)

概率论上:当观察到足够多的数据时,随机性和噪声可以忽略不计

第二章:大数据和机器智能

图灵测试,一种对人工智能的定义。

人工智能1.0 鸟飞派 主要以模仿人类来设计人工智能进行特征提取

是一个专家的时代,并且某些特征覆盖并不是很全。

与之对应的是现代的方法,数据驱动。

机器智能最重要的是能够理解人脑解决的问题,而不在于是否采用和人一样的方法。

贾里尼克区别于传统特征提取方法,把语音识别作为一个通信问题

人脑发声—信息源     声波空气传播—信道    耳朵接受—解码

使用马尔科夫模型描述信源和信道,使用数据驱动,而不是传统的语言学家根据经验进行特征提取,随着数据量加大,系统就会更好。

数据驱动,数据的重要性就相当大。

现在深度学习的 感觉其实也是一种结合,神经网络也有一定的仿生意味,加上了大量的数据训练,得到的结果远远好于传统方式。数据驱动激活了神经网络。

在CV ,NLP领域,通过技术进步,每年大约能改进0.5%

大数据特征

多样性-多维度  是数据有效的,有信息量,有价值的关键

(大数据驱动区别于传统问卷调查更具有真实性,因为人们是在没有压力情况下主动提供的数据)

大量-完备性   大数据可以做到样本即是全集,通过覆盖面,让数据更精准

(预测美国大选,有个最无脑的方法,就是知道每个州每个人在想什么。可以通过互联网爬取相关信息,进行统计,只要知道了大概比例(抽样的思想,但比问卷更真实),就可以推断结果)

及时性        不是必须,但在特定领域(智能交通)等方便很重要

NLP领域,难回答的问题是 WHY,HOW. 容易的是WHAT WHERE WHEN WHICH WHO

第三章:思维的革命

信息论的角度,数据中的信息可以消除不确定性,数据之间的相关性可以取代原来的因果性。

机械思维,逻辑推理,让人们感到确定性的放心,一种自信。

托勒密方法论:

找到一个数学元模型,这个模型要和历史数据吻合。

缺陷,整体模型复杂,因为用了基础的圆来拼接模型

确定性假设,一旦模型确定,即认为真理。

笛卡尔方法论,大胆假设,小心求证。(很科学)

这个也是目前科学还在沿用的。

牛顿的机械思维

1世界变化规律是确定的

2可以用简单的公式和语言描述

3这种规律应该是通用的

也就是科学是一层一层推理出来的。

获取数据信息知识,这个过程需要很多代人的积累。

机械思维取得巨大成就,第一次工业革命,蒸汽。第二次工业革命,电力。极大的推动了人类社会的进步。

看问题要看本质,瓦特改良蒸汽机的动机不仅仅是设计一个机器,而是要通用的为工业提供动力。

机械思维的核心:确定性和因果性。

因果性:

医学药理上,找到真正的致病原因,然后针对这个原因找到解决方案。

分析找到原因,根据原因找到结果。

问题出现:

并不是所有的事情都是可以用简单的原来描述。

在目前信息时代,简单的因果规律都已经被发现了,想要和以前一样找到简单的因果关系,很难。

不确定性的时代:

不确定性原因:

  1. 确定世界里相关因素过多,无法全部考虑进来,也变成不确定
  2. 客观世界自己的不确定性,例如微观世界

信息论:信息熵

信息的度量就等于不确定性的多少。

把智能问题转化为消除不确定性的问题。数据的关联性,提供信息,帮助消除不确定性。

交叉熵常用来度量一致性

从因果关系到强相关关系

医药行业,由于研发周期长,投入大,但有效的专利保护期相对较短,导致特效药很贵。

强相关思维,现有处方药和现有疾病进行一一匹配,如果A药对B病有效,再进入验证期,如果通过验证期,时间3年左右,开发成本只是传统的1/10.只要保证验证合格就行。

例如以前治心脏的药,反而能治疗男性疾病。

大胆假设,小心求证的思想。

这种思维,前提是需要有足够多的数据支持。

数据发掘出 强相关性 ≈ 因果性

非确定世界  确定世界

辩证看因果和强相关的关系

能找到直接因果当然更好,不是否定因果。只是有时发现因果需要一定的灵感和运气(比如牛顿,爱因斯坦发现的物理学公理,又有多少人可以发掘)

能通过机械思维直接发现 确定性和因果性当然是最好的,只是数据驱动提供一种补充。

数据驱动的强相关关系,相当于一种捷径,让我们不会因为运气而被问题难倒。

第四章:大数据和商业

关注原来无法关注的细节,主要原因是原理人工关注成本太高,然后从数据中发现异常

(具体用电细节监控,帮助美国发现室内种植大麻的房子。帮助发现偷税漏税)

数据也能够帮助发现特殊行为,比如商家通过数据分析,精准向孕妇群体推送不同时段所需的商品。

通过牺牲现在有的计算资源,重新认识穷举法的意义,也是大数据完备性的意义。

谷歌无人汽车有个细节,就是在街景收集过的地方表现得会更好,前往一段未知的路,就会表现差。因为在通过已有街景数据的道路时,大部分数据已经提前处理过。实时只需要处理少部分信息即可。如果全部靠实时采集数据再处理,计算量过大,实时性可能无法保障。

这种方式就是通过事前提供完备性来解决一些难题。虽然只能走在走过的路很傻,但现在的技术水平以及道路水平,是支持收录所有道路数据的,这也就是穷举法的一个应用吧。这就是机械思维下暂时找不到完美解,但通过数据可以弥补这个不足。

现有产业 + NEW = 新产业

现有产业 + 大数据 = 新产业

现有产业 + 机器智能 = 新产业

大数据现在其实分两部分,一部分是在大量数据下,通过传统方法进行数据分析,发掘数据价值。另一部分是,只是把大数据整理成养料,来投喂给机器智能,训练发掘出新的能力。

安迪-比尔定律:比尔要拿走安迪所给的。软件功能的增加和改进要不断吃掉硬件性能的提升,整个行业才能平稳发展下去。

+大数据 等于很多新产业

小米前期卖手机给自己的定位就不是制造企业而是互联网企业。小米卖手机并不是只满足于挣卖手机的钱,而是吸纳用户,从用户身上获取长久的收益。

第五章:大数据和智能革命的技术挑战

每一次技术革命除了生产力的发展,还需要很多技术准备,只有这些技术都成熟了,技术革命才可能成功。

目前的现状

1数据的产生:目前数据增量很大

1电脑本身

2传感器

3现存的数据,包括非数字化数据。

2信息的存储

一个是容量问题,一个是读写速度(数据量大了后的检索速度问题)

SSD的出现暂时满足了需求。

3传输的技术

数据从采集端到收集端的通信问题。

目前5G已经有很好的解决

4信息的处理

大数据情况下,计算量将相当庞大。相对于莫尔定律的硬件速度增加,简单的检索NLOGN会随着数据大量增加,让计算能力远远跟不上。

目前解决方案,分布式计算。分布式存储与任务分解运算。

各阶段的技术难题:

数据收集:

大数据的优点在于避免了统计学的采样之苦。

看似简单,但收集到具有多样性和完备性的数据需要很大代价,目前都是大公司通过智能设备收集。

好多廉价的智能设备其实并不廉价,他们都有一个隐藏任务,收集用户使用数据。

数据存储和表示:

目前数据量的增加还是对存储带来很大压力,由于数据安全性考虑,每份数据还不能只留一份,因此数量量尽管通过压缩,但还是要多留4倍,以考虑物理安全性。(没办法,只能硬存)

区别于传统的数据,大数据的多维度让关系型数据库已经不再适合,各种不同的数据结构,失去了数据格式的统一性,给后续调用使用带来很大问题。(开发非关系型数据库,提倡统一的大数据表示格式,例如GOOGLE的 protocol Buffer)

并行计算和实时处理:

并行计算并不是简单机器叠加,有些计算并不具备并行处理特性。

并行比例占95%,通过增加处理器的 数量,最多只能加速20倍。

并行比例占50%,最多只能加到2倍。

计算任务成功拆分,由于子任务计算难度也不一样,最后并行计算时间会取决于最后完成的子任务时间。

因此,目前分布式计算主要是解决了规模问题,至少让大模型跑起来,但在时间上,加速有限。

由于分布式计算时间并不是想象中那么短,实际上反而很长,因此事实上对大数据实时处理是几乎做不到的。

数据挖掘:机器智能的关键

从传统网页上的数据,结构不一样,分析起来很难,需要很好的NLP要不根本处理不了。

大数据在使用前含有噪声,通常要进行降噪处理,损失一部分数据,提高信噪比。

由于机器学习都是不断迭代的过程(期望值最大化),不断迭代加上大量数据,导致计算复杂度过高。

在计算能力有限的时候,采用大数据+浅层模型,小数据+复杂模型,这样才能平衡计算量

从理论上讲,使用大数据加上深度模型,效果一定会很好,但现实计算有限。

在某些特定的问题上,某些机器学习模型确实表现比其他的好,但总体上来讲,大部分机器学习算法是等效的,只有量的差别,没有质的差别,而量的差别可以通过规模计算和数据来弥补。

由于目前机器学习特性,为了机器学习服务将由特定公司提供。这种数据聚集,牵扯出安全问题。

数据安全问题:

好多数据安全事件,制度设计和系统上没有问题,就是人员在实际操作为了方便没有执行

可以通过异常业务流程和行为习惯发现系统是否被他人使用。

保护隐私:

大数据最尖锐的问题之一。

大数据时代,由于大数据的多维度和全面性的特点,简单屏蔽掉很多信息是可以从其他维度利用全面性恢复的。因此需要很多新技术。

  1. 搜集信息时对数据进行预处理,达到可以处理数据却看不懂数据。
  2. 双向监视

保护隐私最好的方法就是要让侵犯隐私的人拿自己的隐私来换(数据标识使用人信息)

总体上来讲,还是很难的呀,仅仅只能通过协议限制,不能完全技术手段规避。

第六章:未来智能化产业

未来农业:精准用水,精细化管理(只是部分地区会用,毕竟水有些地方不缺,虽然只需要用几十分之一的水,但管理成本可能更高)

未来体育:大数据战略分析,动作分析,协助日常训练

勇士队通过大数据分析,发现进攻型得分效率很低,3分球是最好的得分手段,主力培养神射手库里等)

未来制造业:大量机器人取代人工。

未来医疗:降级医疗成本,包括医生和药物的资源。

医生上,通过人工智能辅助,帮助提高效率。合理分配医生资源,让最紧急的病人得到最需要的医生,而不是医疗资源(专家号)被小病患者占据。有限制的医疗诊断机器人也能在一定程度上解决偏远地区,医疗资源少地区的医疗问题。机器人医疗机器人—达芬奇手术台,有些操作比人类还精细,能大大提高顶级外科医生的数量。

药物上,特别是目前绝症的治疗上,通过大数据穷举,降低个性化医疗的成本。

对于癌症,关键是杀死癌细胞。但癌细胞是因为基因错误复制产生,有第一次就有可能第二次,这种针对性药物可能就突然失效。

理论上,只有新药的研制速度快于癌细胞的变异速度,人就可以和癌细胞长期共存。但事实上在传统医药行业,新药开发时间长,成本高,世界上没有几个人能享受这样的资源。

利用大数据的无穷理解。所有可能的恶性基因复制错误和癌症的组合,不过几百万到上千万的可能,这个数量级在IT领域是很小的,但在医学上几乎无穷大。如果能为每种组合找到一种对应的药物编上号,以后只有检测出病变方向,就可以很简单的使用药物治疗。

药物上可以摆脱以前大众药才能审批通过的思想,就算药只对部分人有用,能够找到具体的受用人群,他也是有价值的。

未来律师,记者,编辑都会受到挑战。

第七章:智能革命和未来社会

智能化社会,智能交通等

(有些明显改善用户体验的方向可以研究,比如出现早出发5分钟,可以早到半小时;晚出发半小时,也只会晚到5分钟)

借助RFID识别出校园外来人员,用在更大区域可以用来反恐。

区块链用来追踪每一次交易,用来防伪。

从标准化到个性化服务,更好的利用资源。

隐私的重要性:

可能简单的数据使用就是推荐产品,有的人可能说我又不做坏事,数据拿去没用。

公司拿数据进行大数据杀熟还能接受的话,涉及到自己的医疗和健康就会让很多人失去公平的医疗资源。比如保险公司用数据分析觉得你未来得重病几率接近100,他就会给你拒保。但这样的话,医疗保险存在就没有任何意义了,只是保险公司挣钱的工具。

人们为什么会忽略大数据对个人隐私的威胁:

1不知道大数据的威力

2 把隐私的保护寄托给公司的善意

大数据可能会产生一个老大哥,即超级权利体。

工业革命受益人

第一:企业,精英阶级

第二:中心区域

第三:全球

工业革命会带来很大的副作用,需要半个世纪消化。

信息时代在美国普通家庭收入增加并不大,大的是TOP5%的人。

工业革命造成的剩余劳动力,只能慢慢等待他们退出劳动力市场,一般能加入新行业的比例极低。为了国家稳定,一般就是国家出钱养着这些人。有些国家不肯淘汰过剩产能,就是为了消化这些无所事事的人,根本解决路径就是耗。耗上两代,社会问题就解决啦。

信息时代更难受,不像前两次工业革命,可以开拓新的市场。如今的全球化,很少有市场可以开拓(非洲?)。

虽然现在的人工智能很傻,不能达到人的那种状态,但在某些领域甚至能达到专家水平,这就不仅仅是取代一些体力劳动者,部分脑力劳动者也会有危险(为了社会稳定,估计也是和专家辅助配合,消化劳动力)

当社会不去创造财富而只考虑分配财富,经济就开始衰退。社会公平只能体现在机会平等,而不是结果的平等,只要还有上升途径,就要努力加入他们而不是天天抱怨。

智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘相关推荐

  1. 智能时代——大数据与智能革命重新定义未来

    "这是最好的时代,也是最坏的时代"英国狄更斯在<双城记>的这句话不仅仅适用于第二次工业革命,也适用于现在,适用于每一个发生重大改变的时代.智能时代的来临不再仅仅局限于于 ...

  2. 争当 2% 的人——《智能时代 · 大数据与智能革命重新定义未来》读书笔记

    假期难得有了闲暇时间,把前几年双十一囤的书挑选看完了四本. 首先选择看的是计算机科学家吴军老师的书<智能时代>(豆瓣评分 8.4分,豆瓣热门互联网图书 TOP 10),这是 2016 年谷 ...

  3. 大数据在商业中的应用《智能时代--大数据和智能革命重新定义未来》

    大数据思维不是抽象的,而是有一整套方法让人们通过数据寻找相关性. 美国毒品的问题很难完全遏制住源头,很多人利用废弃工厂.房屋.家里种植大麻,甚至有些人专门买别墅用LED灯管发光种,这样的利润极高,很快 ...

  4. 中兴智能视觉大数据研发智能视觉大数据人脸闸机的功能说明

    智能视觉大数据人脸闸机 详细介绍 智能视觉大数据人脸闸机是基于智能动态人脸识别技术,结合新一代具有高安全性.高稳定性.高效率的自助闸机设备,自主研发的完成通行人员进出入控制的系统,可广泛应用于大厦.楼 ...

  5. 华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储,引领智能时代大数据创新...

    云+AI的智能时代已经到来,计算存储融合的大数据架构由于存在计算存储不能灵活扩展.不同大数据集群间资源利用率不均且数据无法共享.三副本存储利用率低且无法和AI应用高效联动等问题,已经无法满足云+AI时 ...

  6. 中兴智能视觉大数据在智能视觉司机疲劳监测管理平台的应用

        智能视觉司机疲劳监测管理平台 详细介绍 司机疲劳监测管理平台是一款全新的基于疲劳模型算法实现的驾驶安全主动监测系统,该产品通过图像识别分析方法,使用摄像头,通过非接触方式,时时刻刻扫描分析驾驶 ...

  7. 中兴智能视觉大数据报道:人脸识别厉害的还在后头!

    中兴智能视觉大数据报道:前些日子湖口三里派出所接到群众报警称:"在南北港汪家岭附近有个男孩在山里找不到家,你们过来看一下".值班民警驱车来到汪家岭,并对孩子的基本情况进行询问,可这 ...

  8. 智能&大数据时代,架构师思维的十个学习步骤(优化版)

    前言: 秦朝的<书同文.车同轨>,加上唐朝的<诗同形>,有效的减法设计,创造了大一统(加法)的辉煌国度.君不见,在前面各步骤里,诸如:从复杂中设计出简单.以需求检验设计等都是基 ...

  9. 聚焦大数据与智能时代:2016中国大数据应用大会将于7月举行

    2016年5月19日,"2016中国大数据应用大会"新闻发布会在北京国家会议中心举行.中国大数据专家委员会秘书长林润华.中国电子器材总公司常务副总经理陈雯海等领导出席发布会,并就大 ...

最新文章

  1. 【解决方法】你已从聊天服务器断开,正在尝试重新连接
  2. 当超级智能崛起时……
  3. Swift3字符串转换为其他数据类型
  4. 新思路等级考二级c语言题答案,2017计算机二级C语言考试强化习题及答案
  5. OpenYurt 单元化部署新增 Patch 特性
  6. python学习笔记(二)列表(List)操作方法详解
  7. sql中在查询语句中加判断,控制输出的内容
  8. AJAX,只是一种过渡技术吗?
  9. [html] 如何使用普通元素拥有像textarea元素一样缩放?
  10. 【剑指offer】面试题31:栈的压入,弹出序列
  11. 非常有用的101道算法部分常见面试题
  12. 大专计算机应用基础课件,11春大专《计算机应用基础》练习课件.doc
  13. tomcat处理html流程,Tomcat 简单配置使用,基本工作原理(流程图)
  14. 人工智能——数据、信息与知识
  15. 拓端tecdat|R语言做复杂金融产品的几何布朗运动的模拟
  16. Unity 讯飞实时语音转写(三)—— 分析转写结果
  17. 20脚的RSIC-V MCU,竟然可以基于FOC开发PMSM电机
  18. form表单reset重置按钮
  19. Android CameraX 使用入门
  20. 加州大学戴维斯计算机博士生,点赞杭电人|我校本科生直博美国加州大学戴维斯分校 获全额奖学金近32万美金...

热门文章

  1. JUC(狂神版)全面总结
  2. 高端重疾险新突破,御享福有何门道?
  3. Bribe the Prisoners
  4. 沟渠指什么_沟渠-什么什么照沟渠-什么明月什么沟渠
  5. 使用差分法计算矩形波导前20截止频率(matlab实现)
  6. JavaScript 的多事之秋
  7. IBM小型机厉害的高级功能
  8. 最大公约数和最小公倍数的一个小性质
  9. 转贴:卡森麦克勒斯:《伤心咖啡馆之歌》
  10. 计算机网络论文英语翻译,COMPUTER NETWORK_计算机网络(英语论文翻译)