深入浅出数据分析读书笔记

一、数据分析引言

1、数据分析的基本流程：确定——分解——评估——决策。一个完整的分析项目可能经过多轮流程

确定：客户的论点和数据
分解：将手头的资料汇总为有用的格式
评估：比较汇总表中的各个因素，得出结论
决策：根据结论，提出辅助业务的建议或策略

2、数据分析师兼顾解决问题与建议决策的职责。业务问题等同于机会，向客户指出如何发现机会的数据分析师能让客户赢得竞争优势。

3、心智模型：你对外界的假设和你确信的观点，帮助你理解现实世界，而统计模型取决于心智模型。

4、优秀的数据分析的根本在于密切关注需要了解的数据。

5、基于正确的假设建立模型，对于分析结论的重要性。

二、实验——理论检验

1、比较法：统计与分析最基本的原理之一就是比较法，它指出，数据只有通过相互比较才会有意义。

比较越多，分析结果越正确。比较是破解观察数据的法宝。

2、实验研究法：设置控制组（对照组）与实验组，以控制组为基准，要检验的变量为两组对象的唯一变量。（可借助随机函数分组）

控制组（control group）：一组体现现状的处理对象，未经过任何新的处理。

历史控制法（同比）：使用过去的数据，并将这些数据作为控制数据
同期控制法：控制组与实验组在同样的时期内经历同样的事

3、观察研究法：被研究的人自行决定自己属于那个群体的一种研究方法。

局限性：观察分析法充满混杂因素
一个好的观察分析法项目，必须彻头彻尾地查找过混杂因素，并且分析结论有实际意义。

4、混杂因素：就是研究对象的个人差异，这种差异不是试图进行比较的因素，最终会导致分析结果的敏感度变差。

混杂因素分组：拆分数据块，管理混杂因素：为了控制观察研究混杂因素，将数据拆分为更小的数据块，让各小数据块内的数据具有同质性。即让小数据块不包含那些有可能扭曲分析结果及让你产生错误想法的内部偏差。

5、宏观因素：经济、政策

微观因素：价格敏感度

6、反向思考经验法则：当你开始怀疑因果关系的走向时（如价值感的下降导致销量下降），请进行反方向思考（如销量下降导致价值感下降），看看结果如何。

7、随机抽样（随机控制实验）：从对象池中随机选择对象是避免混杂因素的极好办法，可能成为混杂因素的那些对象最终在控制组和实验组中具有同票同权，因此实验结果的差异将归因于正在检验的因素。

8、善用流程图来阐述试验步骤

三、最优化——寻找最大值

1、将所需数据分成两类：无法控制的因素与可控制的因素

约束条件：限制决策变量取值的考虑事项，告诉你在实现目标最大化的过程中无法做到的事

决策变量：可控制的因素

目标函数：由约束条件与决策变量组成的等式

2、最优化问题：通过改变决策变量，得到某一目标的最大值或最小值。

流程：先分析已有数据信息，将数据分为可控制因素（决策变量）与不可控制因素（约束条件）——根据约束条件绘制决策变量取值定义域（约束条件下可能采用的产品组合）——构建目标函数（最优化模型），使用Solver（规划求解）计算最优解（最优产品组合）。

Solver（规划求解）主要是用来解决线性编程问题，更多类型优化问题求解，可搜索运算研究。

3、一切模型都是错误的，但其中一些是有用的。——George Box

4、创建最优化模型时，需要规定假设中的各种变量的相互关系，且约束条件（假设）必须要做到详尽。当变量之间关系或者约束条件发生变化时，有必要重新构建分析方法或者调整模型。

四、数据图形化

1、体现数据：创建优秀数据图形的第一要务就是促使客户谨慎思考并制定正确决策，优秀的数据分析由始至终都离不开”用数据思考“。

2、当数据庞杂时，记住从分析目标出发，整理汇总和目标有关的数据

3、数据图形化的根本在于正确比较，优秀的数据图形包括以功能：

展示了数据：包括数据点、汇总数据信息（统计值）——可采用散点图内加参考线（参考线的值为统计值）
作了高明的比较——控制组与实验组数据
展示了多个变量

4、多元图形：能对三个以上变量进行比较的图形（相似图表相邻排放——子图）

5、数据图形化方面著作——Edward Tufte

6、数据艺术（图形美化）能让数据分析锦上添花，但并非必需品，数据分析的侧重点在于通过数据解决问题、分析结论，并用恰当的图表类型展示结果。

7、分析数据结果背后深层次的原因，可采取细化测试方式，对不同的细化内容进行数据埋点，收集数据进行对比分析，得出最终结论。

五、假设检验（证伪法）

1、将逻辑推理整理成流程图或思维导图

2、探索性分析变量之间相关关系，构建变量关系模型图——某种心智模型

3、假设检验的核心是证伪：只需剔除无法证实的假设（原理：小概率时间无法发生）

4、进行假设检验时，要使用证伪法，回避满意法。

5、证伪法：可克服人们专注于错误答案而无视于其他答案的天然倾向。通过强迫自己以完全正规的方式思考问题，会减少因忽视重要的特征情况而犯错误的可能性。

6、诊断性：是证据所具有的一种功能，能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性，就可以帮助你对假设排序或者借助诊断性找出否定性最小的假设。

诊断证据：能帮助评估各种假设的相对强度的证据和数据。

进行假设检验时，重点要识别和找出诊断证据。
方法：制作假设检验表，对各种数据和假设逐条进行比较，‘+’代表证据支持假设，‘-’代表证据不利假设，最后对结果汇总排序。

六、贝叶斯统计

1、贝叶斯规则：处理直接概率问题

2、条件概率：以一件事的发生为前提的另一件事的发生概率

真阳率、假阳率、真阴率、假阴率

3、基础概率（事前概率）：在根据试验结果单独分析每个样本的情况之前，某个事件发生的概率。

基础概率随着新信息的变化而改变。

4、贝叶斯规则：将概率转化成整数，利用基础概率和条件概率

P(+) = P(+|L) * P(L) + P(+|~L) * P(~L)

P(L|+) = P(+|L) * P(L) / P(+)

P(L|+) = P(+|L) * P(L) / ( P(+|L) * P(L) + P(+|~L) * P(~L) )

5、避免基本概率谬误的唯一办法就是对基础概率提高警惕，而且务必要将基础概率整合到分析中。

七、主观概率——信念数字化

1、主观概率：用一个数字形式的概率来表示自己对某事的确认程度。主观概率是根据规律进行分析的巧妙方法，尤其是在预测孤立事件却缺乏从前在相同条件下发生过的时间的可靠数据的情况下。

2、主观概率是对分歧内容和分歧大小的一种精确规范，是一种向别人精确地传达你的想法和信念的富有启示性的表达方法。

3、贝叶斯规则是修正主观概率的好办法：计算在新证据下，原假设发生的概率

H代表假设（或者基本概率P(H)）、E代表新证据

P(H|E) = P(E|H) * P(H) / P(E) = P(E|H) * P(H) /( P(E|H) * P(H) + P(E|~H) * P(~H))

求解根本在于：在假设成立的条件下，证据出现的概率

P(H|E)为新证据下的主观概率、P(H)基本概率（原主观概率）

八、启发法——启发式数据分析

1、生活中的大部分实际思维活动并非以最理性的方式展开，而是利用既不齐全也不确定的信息，凭经验进行处理，迅速作出决策。——启发式思维

2、启发法定义：

心理学定义：用一种更便于理解的属性代替一种难理解的，令人困惑的属性。
计算机科学定义：一种解决问题的方法，可能会得出正确答案，但不保证得出最优化答案

启发法：在复杂系统中，选取几个关键变量，然后根据这些变量对这个系统作出结论。是从直觉走向最优化的桥梁

直觉：以单个变量或不凭借任何数据作出决定

最优化：构建一个包含所有变量的模型，理想境界

3、数据分析的根本在于妥善分解问题、为数据套上适当的心智模型和统计模型、作出正确的判断，但并不保证次次求得正确答案。

4、快省树：描述启发法的树形图。快是指完成这个过程费时不多，省是指不需要大量认知资源。

九、直方图——度量数据的分布、差异、集中趋势

1、将数据集分块，拆分成子集再绘制直方图或者汇总子集的统计值，进行对比分析差异性。

十、回归：预测

1、算法：为了完成某个计算而执行的任何过程

2、预测分析必问问题：

我有足够的数据进行预测吗？
我的预测准确性如何？
是定性预测还是定量预测？
我的客户能顺利利用这个预测吗？
我的预测有何局限性？

3、散点图：根本在于寻找变量之间的因果关系。另外还需解释因果关系的原因。

平均值图：散点图的一种，显示出与X轴上的每个区间相对应的Y轴数值。

线性回归：最准确地贯穿平均值图中的各个点的直线。

4、相关性：即两种变量之间的线性关系，回归线对于具有线性相关特点的数据很有用。

5、回归线的斜率等于相关系数乘以Y的标准偏差，再除以X的标准偏差。

6、统计方法无法判断你要做的事是否合情合理

十一、误差：合理误差

1、外插法：用回归方程预测数据范围以外的数值

内插法：对数据范围内的点进行预测

2、使用抽样数据进行建模时，必须保证抽样数据能够代表整个数据集。

3、残差/机会误差 ：实际结果与预测结果之间的偏差。

4、优秀的回归分析兼具解释功能和预测功能。

零误差：模型没有任何预测能力（过拟合）

高误差：模型没有任何解释能力

5、均方根误差：定量表示残差分布，描述的是回归线周围的分布情况

标准差：描述的是平均值周围的分布情况

6、分割：将数据拆成几个组，目的在于管理误差

十二、数据库

1、数据库DataBase(DB)：按照数据结构存储数据的仓库。
仓库: 存储数据
数据结构: 程序=数据结构+算法
底层文件的组织方式(结构不同,存储和查询的效率区别)
2、数据库管理系统 ：DBMS: 操纵和管理数据库的一套软件。
分为客户端与服务器，之间通过sql语言来发送查询指令。
3、数据库管理系统分类

关系型的数据库管理系统(RDBMS - relationship)
利用关系模型(二维表格的形式(表)，行称为记录，列称为字段)存储和管理数据
数据量少，数据的关系比较简单，并发量低(io瓶颈,底层文件形式存储)

Oracle数据库：oracle(甲骨文) 大型的分布式的数据库管理系统
闭源收费,产品免费服务收费(去ioe) 传统/国企

Mysql数据库：开源免费的中小型的数据库管理系统

sql server：microsoft，中小型数据库
非关系型的数据库管理系统(Nosql: Not only sql)
高并发和海量数据 – 弥补
redis (键值数据库/内存) / HBase / MongoDB / Neo4J(社交 – 人脉资源(一度人脉)) 图

总结：数据库分为非关系型数据库管理系统（Nosql）：高并发、海量数据，存储形式：键值型redis、文本型MongoDB
关系型数据库管理系统（RDBMS）：数据量少，数据的关系比较简单，并发量低(io瓶颈,底层文件形式存储)

十三、整理数据

1、Edward Tufte —关于分析设计的基本原则：

体现出比较、对比、差异
体现出因果关系、机制、理由、系统结构
体现出多元数据，即体现出1个或2个变量
将文字、数字、图片、图形全面结合起来
充分描述证据
数据分析报告的成败在于报告的内容质量、相关性和整体性