统计学之基础知识(数据分析准备)
写在前面:数据分析的真正目的是从数据中找出规律,从数据中寻找启发,而不是寻找支持。
一、导论
统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。分为描述性统计和推断性统计。应用领域有:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理等。
统计数据的类型:
- 按计量尺度:分类数据、顺序数据和数值型数据。
- 按收集方法:观测数据、实验数据。
- 按时间状况:截面数据、时间序列数据。
数据来源一般分为间接来源(即原始数据已经存在,只需对其进行重新加工整理即可)和直接来源(需要通过调查和实验的方法来获得)。其中调查方法又分为概率抽样和非概率抽样:
- 概率抽样:
- 简单随机抽样;
- 分层抽样;
- 整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);
- 系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);
- 多阶段抽样(先抽群,然后在群内进行二阶段抽样)。
- 非概率抽样:
- 方便抽样(依据方便原则自行确定);
- 判断抽样(依据专业知识进行判断);
- 自愿样本(调查者自愿参加);
- 滚雪球样本(类似树结构);
- 配额样本(类似分层抽样);
- 两者之间的比较:
- 非概率抽样适合探索性的研究,为更深入的数据分析做准备,特点是操作简便、时效快、成本低。而且对于抽样中的统计专业技术要求不是很高;
- 概率抽样的技术含量更高,调查成本更高,统计学专业知识要求更高,适合调查目的为研究对象总体,得到总体参数的置信区间。
在搜集数据时可能会遇到抽样误差和非抽样误差。其中抽样误差所描述的是所有样本可能的结果与总体真值之间的平均差异;非抽样误差则主要有以下几种类型:抽样框误差、回答误差、无回答误差、调查员误差以及测量误差等。
关于数据的整理与展示:
- 分类数据——指标有频数、频数分布、比率、比例;图形有条形图、帕累托图、饼图、环形图等。
- 顺序数据——指标有累积频数和累积频率;可以绘制累积频数分布或频率图。
- 数值型数据——除了前两种类型的图,还有直方图、茎叶图和箱线图。
- 时间序列数据——线形图。
- 多变量数据图示——散点图、气泡图、雷达图。
二、数据的概括性度量
1、集中趋势的度量
分类数据——众数;
顺序数据——中位数和分位数;
数值型数据——平均数。其中几何平均数是使用特殊数据的一种平均数,主要用于计算平均比率。
众数只有在数据量很多的时候才有意义,当数据量较少时,不宜使用众数。当一组数据的分布偏斜程度较大时(信贷数据),使用中位数是一个较好的选择。当数据呈对称分布时,适合使用平均数,当数据为偏态分布时,特别是偏斜程度较大时,选择中位数或众数的代表性要比平均数好。
2、离散程度的度量
(1)分类数据
异众比率——指非众数组的频数占总频数的比率:
其中fm为众数组的频数。异众比率越大,说明非众数组的频数占比越大,即众数的代表性越差,反之则反。
(2)顺序数据
四分位数——上四分位数与下四分位数之差。用来衡量离散程度,数值越小,说明中间的数据越集中。
(3)数值型数据
极差、方差、标准差。
(4)相对位置的度量
标准分数——变量值与其平均值的离差除以标准差后的值。
切比雪夫不等式——适用于任何分布形态的数据,其提供的是下界,即所占比例至少是多少。根据不等式,至少有(1-1/k2)的数据落在k个标准差内,其中k是任意大于1的值,但不一定是整数:
- 至少有75%的数据落在平均数2个标准差内;
- 至少有89%的数据落在平均数3个标准差内;
- 至少有94%的数据落在平均数4个标准差内。
(5)相对离散程度的度量
离散系数——指一组数据的标准差与其相应的平均数之比。
离散系数越大,说明数据的离散程度越大;反之则反。
(6)偏态及其测度
偏态是对数据对称性的测度,统计量为偏态系数(SK):
其中s3是样本标准差的3次方。
若数据对称,则SK=0;当SK大于1或小于-1时,称为高度偏态分布;0.5~1或-1~-0.5时,为中等偏态分布;越接近于0,偏斜程度就越小。
偏态系数为正值,但数值不是很大,说明为右偏分布。
(7)峰态及其测度
当K>0时为尖峰分布。
统计学之基础知识(数据分析准备)相关推荐
- 【入门】数据分析必备——统计学入门基础知识
↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:木木自由 作者:小陌One old watch, like brie ...
- 数据分析必备——统计学入门基础知识
数据说·梦想季 成功的关键在于相信自己有成功的能力.数据之路,与你同行!--数据说·梦想季 导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析 ...
- 统计学之基础知识(一)
参考资料:可汗学院统计学.深入浅出统计学 统计学基础知识 1.平均数 平均值就是用数据之和除以数据的个数 2.方差 偏差=数据的数值-平均值 方差=[(偏差的平方)的合计]/(数据数) 3.标准差 标 ...
- 数据分析必备——SQL入门基础知识
数据说·梦想季 一直很喜欢一句话:山鸟与鱼不同路,从此山水不相逢.意思就是如果你现在不够优秀,即使遇见了,也不配拥有-...努力是唯一的方向! // 导读:科学技术的快速发展正在改变我们的社会,也在不 ...
- SQL入门基础知识详解
////// 导读:科学技术的快速发展正在改变我们的社会,也在不经意间改变着未来人们的职业规划.据媒体预测,数据分析将是未来最重要的工作技能之一.或许不久的将来,一家企业中80%的岗位,都需要数据分析 ...
- 学python需要什么文化基础-数据分析需要掌握那些基础知识?
在这个信息对称的时代,数据分析师的工作将为领导决策提供重要的价值,在企业的地位备受重视.因此,这个职业也吸引了越来越多的人,那么想成为一名数据分析师,以下这些基础的知识是必须要掌握的. />北京 ...
- 如何全面认识大数据分析的基础知识
在大数据时代,人们可以获得与分析更多的数据,甚至是与之相关的所有数据,而不再依赖于采样,从而可以带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息.越来越多的人都在学习 大数据相关的技术,而今天 ...
- (补基础)数据分析系列:假设检验的基础知识
JunLiang 数据科学家联盟 目录: 0x00 前言 0x01 基本思想 0x02 检验方向 拒绝域(拒绝域是由显著性水平围成的区域) 1.双尾检验 2.单尾检验 0x03 一类错误和二类错误 0 ...
- python数据分析基础试题_Python数据分析基础知识
数据库:绝大会要求会SQL,部分要求SQL/NoSQL会一种,高级的分析师或者大型企业要求能够处理大数据,需要Hive(较少的需要Hadoop/Spark): 统计学:若无相关专业背景,需要具备相应的 ...
最新文章
- Python运行的17个时新手常见错误小结
- 第二篇T语言实例开发(版本5.3),福彩3D摇号器
- JS 面向对象与原型
- linux全自动安装光盘,CentOS7全自动安装光盘制做详解
- 【qduoj - 纳新题】小明的dp(快速幂 + 乘法原理)(简单组合数学)
- python 斐波那契数列 yield_Python中的yield到底是个什么鬼?
- E20170618-hm
- express捕获全局异常的三种方法
- python魔法方法和普通方法_Python魔法方法之属性访问详解!
- html 多层滚动,如何实现多个div同时滚动(3个以上)
- 拓端tecdat|数据感知游客的森林公园游憩需求
- Java itext tiff转换pdf
- 欢迎体验 | Android 12 开发者预览版 3
- NVIDIA GeForce 800系列详细配置参数
- 有return的情况下try catch finally的执行顺序(最有说服力的总结) 后面的神评论
- 学了C语言,能开发什么项目?
- 重返帝国T0阵容搭配
- 成功解决raise TypeError(‘Unexpected feature_names type‘)TypeError: Unexpected feature_names type
- C# #region简单使用
- JDK 8的新特性-Lambda表达式 精品文章总结