第一章

我要研究的对象是什么,分析的重点是什么,我要解决什么?

第二步:将主要的大问题分解为无数的小问题,当小问题解决了,大问题自然迎刃而解。
第三步:评估,将得到的数据拆分 对比 得出有用的结论。
第四步:从分析评估中给出决策。
注意:分析与评估是基于正确的信息基础的,如果是从错误的信息中得出的结论,那么又得从头开始分析。
第二章:实验
通过数据的走势异常判断可能得原因,越多的比较越能发现潜藏深处的问题
有时候我们确定了一对因果关系,我们需要将因果关系倒过来推一下比较好
作为分析师需要不断的考虑混杂因素的影响
做实验的时候常常需要有控制组和实验组,但是即使是这样也不免有混杂因素的影响
可比性? 一个大区域中的若干小区域
随机能够将混杂因素均匀的分散至若干个小区域,最终达到化解混杂因素的目的
控制组是原始对照的作用,实验组才是用于观察效果

在统计的课程中学习到:实验的两组间必须有相关变量,还有独立变量,如果出了独立变量其他的变量都一样,那么实验的结果与独立变量的相关性就越高。在一个疫苗试验中,控制组注射同样剂量的其他试剂,而不是什么都不用做,因为这样才有可比性,这样可以排除一些心理的影响对实验结果造成的误差。

第三章:
最优化问题
当你希望尽量多的获得某种东西,而为了实现这个目的需要改变其他一些量的值,就是一个最优化问题。
一切模型都是错误的,但其中一些是有用的 by george box
我们无法规定全部的假设条件,但是只要确实一个重要的假设条件,分析结果就可能毁掉。

第四章 图形让你更精明
要是手头数据庞杂,而且对于如何处理这些数据没有把握,这时只要记住你的分析目标就行了:记住目标,目光停留在和目标有关的数据上,无视其他。
着眼于问题,只要数据的分析能够解决客户的问题,不管是平凡还是精美都没关系。
数据图形化的根本在于正确比较
一个优秀的图形所具备的优点:
-展示了数据
-做了高明的比较
-展示了多个变量
用散点图探索因果关系
数据图形化的大师:Edward tufte
我们能从数据的图形趋势推论出一个结果,但是其中的因果关系更值得深思。
第五章 假设检验
观察数据变量有个好方法  看变量间是正相关还是负相关,将各个变量利用正负相关性绘制一个模型图。
因为现实中的各种原因呈网络关系,并非线性关系。
作为一个分析师,需要在因果的网络中看出门道,需要开阔的视野,
假设检验的核心是证伪
无需选出最合理的假设,只需剔除无法证实的假设
到了最后如果还是不能排除一些其他的选项,那么需要借助诊断性证据排出优先级。
诊断性证据是指那些有区分度的证据,对各个选项的贡献度不一样。
第六章 贝叶斯统计
不能忽视条件概率,需要考虑基础概率来计算我们的生活
有时候将概率转换为整数可以有效的避免失误

记住一个公式:

P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)

第七章 信念数字化
将可能 大有可能 有机会 肯定等模糊的概率词汇换成精确的百分比。
始终记住 确认问题才是第一位的
stdev()用来计算一组数的标准偏差,表示数据基于平均值的离散程度
当既定的分析已定,出现新的关键信息,需要在基础概率上做操作,用到贝叶斯统计
第八章 启发法
启发法是从直觉走向最优化的桥梁
直觉往往是靠不住的,看到的是片面,但是启发法可以看到多个选项。
以一个点出发向结果延伸,如果不令人信服,结果之前还需要添加点路径?
第九章 数字的形状
R语言的一些基本操作:
source(“”)用于下载一个表
save.image 用于保存表
直接输入表的名字,用于打开一个表
hist(表名字$自变量,breakes=)breakes用于分组的个数
sd(表名字$自变量) 用于计算标准差
summary(表名字$自变量) 返回总体的汇总统计值
help(函数名)弹出帮助网页
标准偏差:用于计算样本中的值相对于平均值的分散程度
总体标准偏差σ=Sqrt[(∑(xi-μ)^2) /N],公式中∑代表总和,μ代表总体x的均值,^2代表二次方,Sqrt代表平方根。
数据分析就是发现条件选择对于结果的影响,所以我们往往需要做到发现图中的一些细节。
第十章 回归
算法 为了完成某个计算而执行的任何过程。
预测是数据分析的重头戏,有些人认为把假设检验和预测加起来就等于数据分析
尽量多使用散点图,只要数据涉及两种变量,应该首先考虑使用散点图。
head(文件名,n=x)读取前X行的内容
plot(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])
作出散点图,分别为X,Y轴变量。
cor(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])
用于计算两个变量之间的相关系数越大越好 最大为1
为了根据这些基本数据算出一条可以预测的曲线,用到了线性模型模块
mylm <- lm(received[negotiated == TRUE] ~ requested[negotiated == TRUE],data=employees) 
mylm$coefficients
y=intercept+k*x
R如何计算斜率?
第11章:误差
低劣的预测比不预测更糟
观察模型的时候一定要想一想假设有何道理,不合适的假设会使模型完全失效,最坏的结果是极具欺骗性的模型。
我们的分析基于现有的数据只能作用于现有的自变量范围(内插法)
实际结果与预测结果的偏差叫机会误差
在统计学中机会误差叫残差,对残差的分析是优秀的统计模型的核心
误差固然可恨,但是我们可以控制误差,预测的时候给出范围比给出具体的数值更加有效
误差的分布在不同的区域会呈现出不同的现象,我们可以通过分割来管理误差,将数据分拆为几个组。
我们将整体分为多个部分能够更好的管理误差,诠释现象
> mylmbig <- lm(received[negotiated == TRUE & requested > 10] ~ requested[negotiated == TRUE & requested > 10],data=employees)
> mylmsmall <- lm(received[negotiated == TRUE & requested < 10] ~ requested[negotiated == TRUE & requested < 10],data=employees)
> summary(mylmbig)
summary(mylmsmall)$sigma
通过将模型拆分进行更加细致的分析从而说服客户

深入浅出数据分析读书笔记(head first into data analysis)相关推荐

  1. 深入浅出数据分析读书笔记

    深入浅出数据分析读书笔记 一.数据分析引言 1.数据分析的基本流程:确定--分解--评估--决策.一个完整的分析项目可能经过多轮流程 确定:客户的论点和数据 分解:将手头的资料汇总为有用的格式 评估: ...

  2. Node.js: 深入浅出Nodejs读书笔记

    今天终于把朴灵老师写的<深入浅出Node.js>给学习 完了, 这本书不是一本简单的Node入门书籍,它没有停留在Node介绍或者框架.库的使用层面上,而是从不同的视角来揭示Node自己内 ...

  3. R语言explore包进行探索性数据分析实战(EDA、exploratory data analysis):基于iris数据集

    R语言explore包进行探索性数据分析实战(EDA.exploratory data analysis):基于iris数据集 目录

  4. 【精益数据分析读书笔记】第五章-数据分析框架

    戴夫·麦克卢尔的海盗指标说--AARRR 获取用户(Acquisition).提高活跃度(Activation).提高留存率(Retention).获取营收(Revenue).自传播(Referral ...

  5. Spark快速大数据分析——读书笔记

    --8.16开始整理 Spark快速大数据分析 推荐序: 一套大数据解决方案通常包含多个组件,从存储.计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法.数据可视化来获得商业洞见的分析层, ...

  6. 谁说菜鸟不会数据分析--读书笔记

    如果看不清可以下载下来,打开,放大.仅供参考. 转载于:https://www.cnblogs.com/sunshinewang/p/6591772.html

  7. 深入浅出MFC 读书笔记1

    第六章 MFC程序的生死因果 1.不同类的PreCreateWindow()成员函数都是在窗口产生之前一刻被调用,准备用来注册窗口类.如果我们指定的窗口类是NULL,那么就使用系统默认类. 第九章 消 ...

  8. 深入浅出Docker 读书笔记(九)

    第16章:企业版工具 Docker 企业版(Enterprise Edition,EE):企业需要 Docker 能实现私有化部署.这通常意味着 Docker 需要一个本地化部署方案,并且由企业自己掌 ...

  9. 1.13 空闲时间处理: Onldle <深入浅出MFC读书笔记>

    空闲时间处理 1.什么是空闲时间 2.空闲时间可以用来做什么 什么是空闲时间 书上的概念是这样的: 系统中没有任何消息等待处理 例如: 假如我们的我们鼠标从屏幕划过, 可能产生很多的消息, 但是电脑的 ...

  10. pandas数据分析读书笔记(四)

    Pd.merge(left = df1, right = df2, on = 'key', left_on = 'lkey', right_on = 'rkey', how = 'inner', su ...

最新文章

  1. 天天用着Redis集群,主从同步该知道吧?集群工作原理是否需要了解下?
  2. web开发快速提高工作效率的一些资源
  3. 在融通一年多来,海哥一直在分享看过的比较不错的文章,借花献佛下
  4. Python中安装moveit_commander,顺带解决rospy模块未安装问题
  5. 除外存外 微型计算机的存储系统一般指,除外存之外,微型计算机的存储系统一般指()...
  6. ArcGIS中的投影和坐标转换
  7. 【文章】你和自己聊过吗?你很重要
  8. 软件架构设计的六大原则
  9. 创投“黑帮”,必须的
  10. Python编程之画圆
  11. 斗鱼直播云原生实践之注册中心篇
  12. Axure RP 9.0.0.3687 正式版
  13. 永不消逝的电波(三):低功耗蓝牙(BLE)入门之如何调戏别人的小米手环
  14. Nagios③:文件初探
  15. 西瓜书第四章习题及答案
  16. android自动切换输入法,一种动态切换Android系统输入法的弹出模式的方法
  17. nopCommerce3.9简体中文语言包(nopCommerce3.9 language)
  18. Android设备与USB设备的连接通讯
  19. 注意stm32定时器的倍频器
  20. xbmc_如何在XBMC上获取Hulu和Amazon视频

热门文章

  1. Flightgear 编译
  2. clousx6机器人卡密_手机x6机器人词库编程-clousx6词库助手免费版v8.0 安卓最新版-2265安卓网...
  3. DIPS工具实现解释
  4. 绿盾加密软件怎么暂停_天锐绿盾加密软件 应用程序限制 网络端口限制 流量限制...
  5. matlab2016a下载包及安装教程
  6. 基于SpringBoot开发的后台管理、系统脚手架Github\Gitee收集
  7. 浅谈Spark中的宽依赖和窄依赖
  8. 安卓pdf 控件使用说明
  9. 我常用的几款数据软件
  10. iphone绕过id_破解苹果安卓手机屏幕锁ID锁 极品神器