数据分析固定流程

  • 客户帮你确定问题,客户试分析结果的服务对象,可能是上司、执行官、本人。客户将根据你的分析作决策,需要从他那里多了解一些信息,才能确定问题:

  • 分解

  • 评估

心智模型
  • 你对外界的假设和你确信的观点就是心智模型
  • 统计模型取决于心智模型,如果采用错误的心智模型,分析会胎死腹中
  • 心智模型决定你的观察结果,是你观察现实的棱镜
  • 你无法看到一切,因此你的大脑必须做出选择,以便集中注意力,这就是所谓的心智模型大大决定观察结果
  • 心智模型应包含不了解的因素:一定要指出不确定因素,只要明确不确定因素,就会小心防范并想出办法填补知识空白,继而提出更好的建议。考虑不确定因素及盲点会让人感觉不爽但回报显著。这种反查方法揭示出未知信息,而不是已知信息。如,雇佣舞蹈家,对其不会跳的舞更感兴趣。
观察研究法 被研究的人自行决定自己属于哪个群体的一种研究方法
拆分数据块 为了控制观察研究混杂因素,有时需将数据拆分为更小的数据块。这些数据块更具有同质性,即数据块不包含那些有可能扭曲你的分析结果及让你产生错误想法的内部偏差。
控制组
  • control group:一组体现现状的处理对象,未经过任何新的处理(对照组)
  • 没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断
  • 历史控制法:取用过去的数据,并将这些数据作为控制数据。偏向于你力图进行检验的对象的成功方面,因为很难选出和你所测试的组真正相似的控制组。总体上,应对历史控制法表示怀疑。
  • 同期控制法:控制组与实验组在同样的时期内经历同样的事

不可控因素;

可控因素

                 
假设检验

证伪法:剔除无法证实的假设。可以克服人们专注于错误答案而无视于其他答案的天然倾向。通过强迫自己以完全正规的方式思考问题,会减少因忽视重要特征情况而犯错误的可能性。

满意法:选出看上去最可信的第一个假设。满意法的问题是当人们在未对其他假设进行透彻分析的情况下选取某种假设时,往往会坚持这个假设,即使反面证据堆积如山。

诊断性 是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。
基础概率 事前概率:在根据试验结果单独分析前,就知道的概率
主观概率

如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率

是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的可靠数据的情况下

启发法

心理学定义:用一种更便于理解的属性代替一种难理解的、令人困惑的属性

计算机科学定义:一种解决问题的方法,可能得出正确答案,但不保证得出最优化答案

快省树 快是指完成这个过程费时不多,省是指不需要大量认知资源
外插法

用回归方程预测数据范围以外的数值称为外插法,风险大。使用外插法需要指定附加假设条件,明确表示不考虑数据集外发生的情况。

用回归方程预测数据范围以内的数值称为内插法,准确。

机会误差

实际结果与预测结果之间的偏差,又叫残差

预测总是与机会误差同在

标准偏差

描述的是平均值周围的分布情况

这种度量方式描述的是一个变量

均方根误差

描述的是回归线周围的分布情况

指两个变量之间的关系

又称残差标准差

分割

将数据分析拆分为几个组。如果为几个分组分别创建预测模型比单独使用一个模型更能减小误差,则应进行分割。

回归线是与平均值图形重合程度最高的线条

深入浅出数据分析----- 学习笔记相关推荐

  1. 深入浅出MFC学习笔记

    深入浅出MFC学习笔记 ithzhang CSDN博客:http://blog.csdn.net/ithzhang/article/category/1159054 转载于:https://blog. ...

  2. 深入浅出SSD 学习笔记整理——Johnathan Sung

    SSD ( Solid State Drive),即固态硬盘,是一种以半导体闪存( NAND Flash)作为介质的存储设备.和传统机械硬盘(Hard Disk Drive,HDD)不同,SSD以半导 ...

  3. MPU6050原始数据分析——学习笔记

    MPU6050原始数据分析--学习笔记 个人学习笔记 MPU6050简介 原始数据分析 加速度计 陀螺仪 代码 个人学习笔记 用于记录自己学习的成果,并且分享给大家一起看看.希望对看到这篇的朋友有所帮 ...

  4. 深入浅出数据分析读书笔记

    深入浅出数据分析读书笔记 一.数据分析引言 1.数据分析的基本流程:确定--分解--评估--决策.一个完整的分析项目可能经过多轮流程 确定:客户的论点和数据 分解:将手头的资料汇总为有用的格式 评估: ...

  5. 深入浅出DPDK学习笔记(3)——— Cache和内存

    深入浅出DPDK学习笔记(3)--- Cache和内存 系统架构的演进 Cache系统简介 Cache的种类 TLB Cache Cache地址映射和变换 全关联型Cache 直接关联型Cache 组 ...

  6. 金融风控训练营--Task 02 EDA探索性数据分析 学习笔记

    文章目录 前言 一.学习知识点概要 1.1 探索性数据分析(Exploratory Data Analysis,EDA)的目的 二.学习内容 2.1 数据总体了解 2.1.1 读取数据集并了解数据集大 ...

  7. 谁说菜鸟不会数据分析 | 学习笔记 (全)

    一.前言 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程 数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律.在实际工作中, ...

  8. 21、深入浅出MFC学习笔记,Application Framework简介

    1.Application Framework是一个完整的程序模型:是一组合作无间的对象,彼此藉消息的流动而沟通,并且互相调用对方的函数以求完成任务.<?xml:namespace prefix ...

  9. 28、深入浅出MFC学习笔记,View功能的加强和重绘效率的提高

    1.同一份Document的多个views,在Document的一个view改变了后,如何同步其它view呢? 让所有的Views 同步更新资料的关键在于两个函数: 1)CDocument::Upda ...

  10. 深入浅出MFC学习笔记:MFC六大关键技术仿真之RTTI运行时类型识别

    RTTI(运行时类型识别) 参考文献:深入浅出MFC-侯捷 怎样去构造类别型录网? 一.定义数据结构: 其中pFirstClass指针属于痊愈变量,所以它应该以static修饰之. 而且我们最终希望达 ...

最新文章

  1. 数据结构(1)有序表查找
  2. Keycloak宣布不再适配Spring Boot和Spring Security
  3. hoj 3005 Game Rigging 强联通分量求缩点
  4. 【Android 组件化】路由组件 ( 页面跳转参数依赖注入 )
  5. golang操作mysql
  6. love2d教程3--输入和音乐
  7. extjs5的grid垂直滚动条bug_Extjs grid panel 滚动条失效的解决方法
  8. 分布式与人工智能课程(part9)--Pandas绘图
  9. 禁用内存清理_win10电脑开机内存占用高达80%以上如何解决
  10. MySQL 如何实现行转列分级输出?
  11. 包含html语言的超链接标记的网页_什么是网页
  12. 【ABAP系列】SAP ABAP 从FTP服务器读取文件到本地
  13. Javascript格式化工具
  14. plsql 登录提示 丢失msvcr71.dll
  15. mac word 2016中文输入问题解决
  16. hdu 1680 Cheesy Chess
  17. ARM6818开发板画任意矩形,圆形,三角形,五角星,6818开发板画太极,画五星红旗(含码源与思路)
  18. CREO图文教程:三维设计案例之油缸顶物体的骨架模型设计图文教程之详细攻略
  19. ddt数据驱动 python接口 xls_013 python接口 数据驱动ddt
  20. 阿里云学生成长计划资格考试分享

热门文章

  1. 服务器外置硬盘安装教程,小容量Mac用户必看——苹果电脑外接硬盘安装windows教程...
  2. Linux chmod文件授权命令
  3. 超实用的JavaScript代码大全
  4. 为什么土豆网王微会放弃自己原有的立场,跟优酷合并 合并后有何影响
  5. 五子棋(机器人随机下棋简单版本)
  6. 《人.地.城》读书笔记
  7. linux经典书籍推荐
  8. junsansi 列表(4) - 三思笔记,ORACLE学习轨迹~~~~ - ITPUB个...
  9. 树莓派PICO:DS1302时钟芯片(MicroPython)
  10. Android 4.0平板,Android4.0.3系统_平板电脑_平板电脑评测-中关村在线