数据分析入门——深入浅出数据分析

该系列文章系个人读书笔记及总结性内容，任何组织和个人不得转载进行商业活动！

前言

其实我也不知道怎么就买了这么一般书，可能是学点python就觉得想要做点什么，好吧，买了毕竟是要读的，那就开始吧；

数据分析的书

数据中充满了“智慧”——信了你的邪！
创建直观的图形、试验假设条件、进行回归分析或整理混乱的数据；——很吸引人！

在，正式阅读之前，请“大量喝水”！

1 分解数据——数据分析引言

处理大量数据，分解和构建复杂的问题和数据集，得到推进现实工作的策略；

示例：分析某公司产品的销售情况：

	9月	10月	11月	12月	1月	2月
总销量	11000	14000	12000	12000	13000	14000
目标销量	10000	13500	15000	17000	19000	21000

广告费	5000	4000	3000	2000	1000	1000
社交网络费	0	1000	2000	3000	4000	5000

单价	2	2	2	1.9	1.9	1.9

目标：提高销量

数据中哪些东西能够实现这个目标；

数据分析就是仔细推敲证据

固定的基本流程+丰富的经验：

确定：确定问题；
分解：分解问题和数据，使之成为最小的组合；
评估：根据前两步了解的情况作出结论；
决策：结论重组，得出建议/决策；

好的数据分析师往往能作出更好的决策；

如何确定问题

客户能帮助确定问题：

客户是数据服务的对象；
客户将根据你的分析作出决策；所以需要从客户处尽可能多的了解信息；
客户多种多样，甚至不了解自己的数据、自己的业务；对客户了解越深，分析就越能排上用处；

探索性数据分析：找到一些值得进行进行测试的假设条件；

优秀的数据分析师能够帮助客户思考自己的问题；而不是等待客户告诉他们该做什么；

聘用数据分析师的人认为。具备分析技能的人能够改善他们的业务；有人把这些问题视为机会，而向客户支出如何发现机会的数据分析师则能让客户赢得竞争优势；

确认问题的典型提问

您希望销量提高多少？——如：重回目标值；
消费受众是哪些？——如：20-30岁的女性消费者；
销量提高的目标值合理吗？
您的竞争对手销量如何？
营销手段有哪些？——如：广告和社交；
各个营销手段投入的预算是多少？——如：收入的30%；

将大问题分解为小问题

找到感兴趣的比较对象，分解汇总数据：

进行有效的比较是数据分析的核心；

已确定观点：

消费受众固定且唯一，但消费潜力很大；
修改各个营销手段的预算分配；
竞争对手很强大；

数据体现出来的：

最新一月的销量，与第一个月相比，成绩不明显；
销量与目标相去甚远，尤其从11月开始；
降价未能有效的提升销量；
消减费用会影响公司的销量达标能力；

对自己：

要在数据中发现什么；
避免做出过头的结论；
对工作成败负责；

对客户：

尊重数据分析师的判断；
理解数据分析师的判断是有局限性的；

作为数据分析师，工作就是让自己和客户仔细研究你对数据的评估，从而做出更好的决策；
提交的报告要以得到客户理解、鼓励客户以数据作为基础做出明智的决策为重点；

分析报告：

背景
数据解说
建议

客户已经确认的观点和可能会让你误入歧途——客户心理想的往往是一种心智模型；

你对外界的假设和你确信的观点就是你的心智模型；
统计模型取决于心智模型；

假设：

最受欢迎的产品？
需要新产品才能提高销量？
没有匹敌的对手？
“网络”营销最有效？
受众愿意花更多的钱在产品上？
…

明确不确定因素、盲点，获取未知信息；了解自己的知识缺陷，及时补充：

无法明确的回到关于产品销量的问题；
十分明确的观点的反面很有可能是一个大的盲点；
大量不确定因素的确定，有助于发现盲点；

准确了解数据背后所代表的信息：

比如，你的数据里有一家经销商公司，你可能要了解，这个经销商公司的受众是哪些（再下一级受众）？
无论数据多么纷杂，一定要始终明确自己的目标；

现在数据分析已经纳入了更多的信息：各个经销商的分销产品的数量、占比等；

男士也是受众！！

总结

完善的心智模型需要大量的知识、经验相结合。

2 实验——检验你的理论

实验

解决问题、揭示事物的真正运行规律；
摆脱对观察数据的无限依赖，帮助理清因果关系；得到可靠的实证数据；

示例：咖啡销量下滑

会见CEO，弄清楚公司商务运营方式；
进行一次客户调查（弄清楚客户想法，当然自己可以先喝一杯）——随机抽样；
目标销量如何定义的；

比较越多，分析结果越正确；

观察研究法：被研究的人自行决定自己属于哪个群体的一种研究方法；

观察分析法充满了混杂因素（混杂因素就是研究对象的个人差异）；
比如某一个富人区对咖啡的需求会影响整个咖啡销量分析的结果；
所以需要——校正混杂因素；

控制组：一组体现现状的处理对象，未经过任何新的处理（也称对照组）；

好的实验总是有一个控制组（对照组），使分析师能够将检验情况与现状进行比较；
没有控制组就意味着没有比较，就意味着没法对所发生的情况进行判断；

历史控制法通常用于检测对象的成功方面；当前和历史的大多数方面不具有可比性；

实验组和控制组的选择：避免混杂因素；
你可以：

轮流按不同的价格给顾客结账；这样一半进实验组，一半进控制组，店址也不再是混杂因素；X
使用历史控制法，将这个月所有店作为控制组，下个月所有店作为实验组；X
将不同的店随机分配给控制组和实验组；X
将大的地理区域分成小的地理区域，随机将这些微区域分进控制组和实验组；√
- 分割范围要合适，分割区域也要彼此相似；
- 相似的组织间才有可比性；

从对象池中随机选择对象是避免混杂因素的极好方法；（随机使混杂因素的影响对控制组和实现组相同）

随机控制 是各种实验的黄金标准；最大限度地接近数据分析的核心——证明因果关系；

添加随机列，在第一个单元格输入 =RAND()，然后向下拖动使用，在对随机列进行排序；
根据需要划分控制组和多个实验组；

我们已经了解了观察研究法 实验研究法 控制组和实验组 混杂因素 随机性 ，使用它们设计合适的实验，找到想要的答案；

试图证明什么？why？
控制组和实验组是什么样子的？
- 将数据表划分为微区域；
- 将微区域随机分配给控制组和实验组；
如何避免混杂因素？
- 相同（相似）的组，再区别对待，才有了有效的比较；
分析结果会是什么样的？

结论

随机控制实验，得出了最有效的提高营业收入的方式。

3 最优化——寻找最大值

用数字表示利润、钱、效率、速度等，实现更高目标：调整决策变量、解决方案和优化点；

分析：

当前产品的盈利能力；
约束各个产品盈利能力的因素都有哪些；
- 各个产品的利润，原料公用能力，生产需要时间…
- 给出每个产品生产多少的意见；

`约束条件`：

可以明确在实现利润最大化的过程中无法做到的事；

`决策变量`：在不超过约束条件的情况下，选择一个组合实现利润最大化；

最优化问题：

通过改变一些量值，实现某一项的最大化；如通过改变各个产品的生产数量，达到利润的最大化；

解决最优化问题：

将决策变量、约束条件及希望最大化的目标合并成一个目标函数；
希望最大化或最小化的对象就是目标，目标函数可以帮助找到最优化的结果；

约束条件和决策变量在等式中共同作用，形成利润，多个最终汇成目标：总利润：

P	=	c1x1	+	c2x2
目标：期望最大化的对象		c表示约束条件		x表示一个决策变量

任何最优化问题都有一些约束条件和一个目标函数；

产品1的利润 * 产品1的生产数量 + 产品2的利润 * 产品2的生产数量 = 利润

如何在一张图里把各个产品组合的约束条件绘制出来？

以x轴表示产品1，y轴表示产品2，产品组合在由约束线围城的空间称为可行区域；每个约束条件都会引起可行区域的变化，可以通过可行区域找到最优点；

原料供应的约束条件：

500个产品1 或400个产品2；各取圆点画直线；

可行区域的点带入到目标函数：

$5 * 产品1的数量 + $4 * 产品2的数量 = 利润；

使用Excel的小函数找到最优点，解决最优化的问题

Excel中的函数插件：Solver（求解器）；
插入约束条件，写下目标函数，其他的交给Solver吧；

一切模型都是错误的，但其中有一些有用的；尽量创建最有用的模型；

Solver可以解决许多定量问题，但Solver主要是一个解决线性编程问题的工具，优化问题还有许多其他类型，可以用各种算法求解；

提防负相关变量：

产品1的市场受欢迎程度可能和产品2负相关；
创建模型时，往往要假设并明确各个变量的相互关系；

加入一个新的约束条件：估计某个月各个产品的最高销量；并假设后续几个月会保持前几个月的销售趋势；

模型使用的数据都是观察数据，现在其作用，未来可能会失灵，要做好准备，反复不断地进行构建正式分析师的工作；

总结

理解了具体的定量最优解的求解方式，但是这个Solver没用上，在WPS上没找到。

4 数据图形化——图形让你更精明

高明的数据图形：

做出高明的比较；
展示了个更多的变量；

散点图是探索性数据分析的奇特工具：

使用散点图发现因果关系，x轴表示自变量（原因），y轴表示应变量（表示结果）；

最优秀的图形都是多元图形：

图形中，数据与假设的吻合程度，数据是否证实了假设；

5 假设检验——假设并非如此

证伪法：一种切实有效的非直觉方法；

请勿试图选出最合理的假设，只需剔除无法证实的假设——这就是假设检验的基础：伪证；

在进行假设检验时，重点是要识别和找出诊断证据，非诊断证据不会给你带来任何进展；
要关注新进的证据，随时重新分析评估之前的各个假设；

6 贝叶斯统计——穿越第一关

必须确保每一个分析过程都充分利用所搜集到的与问题有关的数据；

贝叶斯规则：利用基础概率和波动数据进行分析；

条件概率：以一件事的发生为前提的另一件事的发生概率；

避免基础概率谬误的唯一办法就是对基础概率提高警惕，而且务必要将基础概率整合到分析中；

7 主观概率——信念数字化

主观概率:

主观概率是根据规律进行分析的巧妙方法，尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下；

通过散点图的分布确定已经达成共识的部分；

标准偏差：

标准偏差量度：分析点与平均值的偏差；
数据集中的大部分点都会落在平均值的一个标准偏差范围内；

EXCEL中计算标准偏差：

公式 =STDEV(数据范围)

示例中场景：

主观概率偏离平均值的标准差越大，分歧越大；

贝叶斯规则用来修正主观概率：

已知证据，求假设条件的概率 = （假设的概率 * 在假设成立的条件下，证据出现的概率） / （假设的概率 * 在假设成立的条件下，证据出现的概率）+（假设不成立的概率 * 在假设不成立的条件下，证据出现的概率）

P(H|E) = P(H)P(E|H) /( P(H)P(E|H) + P(_H)P(E|H) )

通过比较修正后的主观概率重新确定需要达成的共识；

8 启发法——凭人类的天性作分析

启发法是从直觉走向最优化的桥梁：

选择一两个变量，然后根据这些变量对整个系统做出结论；
用一种更便于理解的属性代替一种难解的、令人困惑的属性；
可能会得出正确的答案，但不保证得出最优解；

使用快省树：

一种描述启发法的图形被称为快省树，快是耗时不多，省是不需要大量认知；

9 直方图——数字的形状

使用Wxcel的Data DataAnalysis：

选择Histogram（直方图）；
选择数据；
勾选Chart Output进行图标绘制；

直方图体现了每组数据的发生频数：

无论数据集多大，直方图都能显示出数据点在数值范围内的分布情况；

10 回归——预测

散点图：plot

使用平均值图形预测每个区间内的数值：

画一条线把平均值图中的点连起来——回归线；可以用于预测；
线性回归 or 非线性回归（更复杂，不讨论）；

回归线对于具有线性相关特点的数据很有用；

相关性即两个变量之间的线性关系，如果要呈现线性关系，散点图上的点就需要大致沿着直线分布；

11 误差——合理误差

外插法：回归方程预测数据范围以外的数值预测方法；

指定附加假设条件；

内插法：回归方程预测数据范围以内的数值预测方法；（x值的范围来自能观察到的数据范围）

观察模型时，一定要想一想他们的假设有何道理，以及是否忘记了某种假设；不合适的假设会使模型完全失效；

机会误差=实际结果与模型预测结果之间的偏差；

统计学中，机会误差又称为残差，对残差的分析是优秀的统计模型的核心；

定量地指定误差：

残差分布：需要一个统计值，体现观察结果相对于回归线的平均偏移量；

做为一种度量方式，相对于回归线的机会误差（或者称为均方根误差）的分布与相对于平均值的标准偏差具有相同的用途；

有了回归线的均方根误差值，就能明确实际结果与典型预测结果之间可能有多大差距；

用均方根误差定量表示残差分布：

均方根误差描述的是回归线周围的分布情况；

计算均方根使用相关的统计计算软件提供的函数很方便；我们需要知道的是：

误差是可以定量描述、定量使用的；

度量误差的方法还有很多，均方根只是描述偏差的一种；

分割的目的是管理误差：

将数据拆分为几个组称为分割，如果为几个组分别创建预测模型比单独使用一个模型更能减小误差，则应进行分割；

12 关系数据库——你能关联吗

数据库就是一系列相互有特定关系的数据；

根据从表格导入的数据进行图表绘制使数据更加直观；

13 整理数据——井然有序

作为数据分析师，花在数据整理上的时间多过数据分析上的时间；

如果给定的数据域有规则，比如以某个分隔符进行分隔，Excel可以通过”Text to columns“来进行文本转换列；

Excel提供了字符串处理的函数：

Find：在单元格中哪个位置查找搜索字符串；
Left：取单元格左边的字符；
Right：取单元格右边的字符；
Trim：删除单元格中的空格；
Len：求单元格的长度；
Concatenate：取两个值，然后合并在一起；
Value：求以文本格式存储的数字的数值；
Substitute：以指定的新文本代替单元格中不需要的文本；

FirstName域：=SUBSTITUTE(B2,"^","")

多个公式还可以嵌套使用：

CONCATENATE(LEFT(A1,1),RIGHT(A1,1))

使用正则表达式处理复杂的数据模式；

为数据排序：让重复数值集中出现：

数据越混乱，越应该大胆的排序；

Excel中支持删除重复数据：Remove Dumplications；

附录A

十大要诀：

统计知识大全

统计学领域拥有大量数据分析工具和技术，对数据分析极为重要；
取样：调查、置信区间、标准误差、样本均值；
显著性检验：原假设和备择假设、T检验、卡方检验、Z检验；
概率：乘法规则、独立性、二项式定理；
随机变量：平均律、概率直方图、正态逼近法、盒子模型；
本书主要提及了假设和建模；
Excel技巧：

掌握Excel并不是特别难；
图形原则：

分析设计原则；
提现比较对比差异
提现因果关系机制理由系统结构
提现多元数据（提现出1或2个变量）
将文字数字图片图形结合
充分描述证据
数据分析报告的成败在于报告内容的质量、相关性和整体性；
数据透视表

数据透视表是电子表格和数据分析软件中极为重要的数据分析工具；
非线性与多元回归
原假设-备择假设检验（《深入浅出统计学》）
随机性
Excel的扩展插件安装并启用及其他。