Python大数据分析(三):大数据统计分析技术
文章目录
- (一)概率论数理统计中的概念
- (1)随机分布
- (2)统计分布
- (二)统计分析的常见指标
- (1)均值,方差,标准差,中位数,众数
- (2)总量指标
- (3)相对指标
- (4)平均指标
- (5)变异指标
- (三)统计分析的特点
- (四)统计分析的基本步骤
- (四)数据统计分析pandas工具使用(共12节入门教程)
- pandas学习笔记(一):对象创建(Object creation)
- pandas学习笔记(二):查看数据(Viewing data)
- pandas学习笔记(三):选择(Selection)
- pandas学习笔记(四):数据缺失(Missing data)
- pandas学习笔记(五):操作(Operations)
- pandas学习笔记(六):合并(Operations)
- pandas学习笔记(七):分组(Grouping)
- pandas学习笔记(八):重塑(Reshaping)
- pandas学习笔记(九):时间序列(Time series)
- pandas学习笔记(十):分类(Categoricals)
- pandas学习笔记(十一):绘图(Plotting)
- pandas学习笔记(十二):数据的输入与输出(Getting data in/out)
- 附:参考资料
(一)概率论数理统计中的概念
(1)随机分布
随机变量(random variable) 表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
按照随机变量可能取得的值,可以把它们分为两种基本类型
- 1、离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。
- 2、连续型随机变量,即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。
(2)统计分布
统计分布(frequency distribution)亦称“次数(频数)分布(分配)” 。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。
分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列,简称分布数列或分配数列。
(二)统计分析的常见指标
(1)均值,方差,标准差,中位数,众数
- 均值:平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
- 方差:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
- 标准差:标准差(Standard Deviation) ,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。 标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
- 中位数:中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
(2)总量指标
总量指标是用来反映社会经济现象在一定条件下的总规模、总水平或工作总量的统计指标。总量指标用绝对数表示,也就是用一个绝对数来反映特定现象在一定时间上的总量状况,它是一种最基本的统计指标。
(3)相对指标
相对指标亦称“统计相对数”。两个有联系的现象数值相比得到的比率。反映现象的发展程度、结构、强度、普遍程度或比例关系。分为:结构相对数、强度相对数、比较相对数、比例相对数、动态相对数、计划完成相对数等。表现形式是有名数和无名数。
如:甲地职工男职工人数占职工人数的70%
(4)平均指标
平均指标亦称“平均数”。同质总体内各单位某一数量标志的一般水平。平均数的特点是对总体各单位之间标志值的差异抽象化,用一个数字显示其一般水平。因此,它可用来比较不同时间、地点或部门之间同类现象水平的高低,分析现象间的相互关系,估计推算其他有关指标,如用样本平均每亩产量乘收获面积估算农作物总产量。
(5)变异指标
综合反映总体各单位标志值变异程度的指标。简称变异指标。它显示总体中变量数值分布的离散趋势,是说明总体特征的另一个重要指标,与平均数的作用相辅相成
(三)统计分析的特点
- 科学性 : 统计分析方法以数学为基础,具有严密的结构,需要遵循特定的程序和规范,从确立选题、提出假设、进行抽样、具体实施,一直到分析解释数据,得出结论,都须符合一定的逻辑和标准。
- 直观性: 现实世界是复杂多样的,其本质和规律难以直接把握,统计分析方法从现实情境中收集数据,通过次序、频数等直观、浅显的量化数字及简明的图表表现出来,这些数据的处理,将我们的研究与客观世界紧密相连,从而提示和洞悉现实世界的本质及其规律。
- 可重复性: 可重复性是衡量研究质量与水平高低的一个客观尺度,用统计分析方法进行的研究皆是可重复的。从课题的选取、抽样的设计,到数据的收集与处理,皆可在相同的条件下进行重复,并能对研究所得的结果进行验证。
(四)统计分析的基本步骤
- 收集数据: 收集数据是进行统计分析的前提和基础。
- 整理数据: 整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。
- 分析数据: 分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核心和关键。
(四)数据统计分析pandas工具使用(共12节入门教程)
pandas学习笔记(一):对象创建(Object creation)
pandas学习笔记(一):对象创建(Object creation)学习链接
pandas学习笔记(二):查看数据(Viewing data)
pandas学习笔记(二):查看数据(Viewing data)学习链接
pandas学习笔记(三):选择(Selection)
pandas学习笔记(三):选择(Selection)学习链接
pandas学习笔记(四):数据缺失(Missing data)
pandas学习笔记(四):数据缺失(Missing data)学习链接
pandas学习笔记(五):操作(Operations)
pandas学习笔记(五):操作(Operations)学习链接
pandas学习笔记(六):合并(Operations)
pandas学习笔记(六):合并(Operations)学习链接
pandas学习笔记(七):分组(Grouping)
pandas学习笔记(七):分组(Grouping)学习链接
pandas学习笔记(八):重塑(Reshaping)
pandas学习笔记(八):重塑(Reshaping)学习链接
pandas学习笔记(九):时间序列(Time series)
pandas学习笔记(九):时间序列(Time series)学习链接
pandas学习笔记(十):分类(Categoricals)
pandas学习笔记(十):分类(Categoricals)学习链接
pandas学习笔记(十一):绘图(Plotting)
pandas学习笔记(十一):绘图(Plotting)学习链接
pandas学习笔记(十二):数据的输入与输出(Getting data in/out)
pandas学习笔记(十二):数据的输入与输出(Getting data in/out)学习链接
附:参考资料
- 百度百科·随机分布
- https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F
- 百度百科·统计分布
- https://baike.baidu.com/item/%E7%BB%9F%E8%AE%A1%E5%88%86%E5%B8%83
- 智库百科·统计分析
- https://wiki.mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90
- 维基百科·统计学
- https://zh.wikipedia.org/wiki/%E7%BB%9F%E8%AE%A1%E5%AD%A6
- 智库百科·统计分析
- https://wiki.mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E5%88%86%E6%9E%90
Python大数据分析(三):大数据统计分析技术相关推荐
- 《Spark大数据分析:核心概念、技术及实践》大数据技术一览
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章 ...
- 《Spark大数据分析:核心概念、技术及实践》一3.5 API
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第3章,第3.5节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...
- 大数据分析过程中包含哪些技术
所谓大数据不仅体现在数量上的庞大,还有涉及到的方面比较广泛,以及计算过程比较的庞大而高效等,大数据分析能够从海量的数据中提取出最有效的信息,在企业的营销中发挥关键性的作用,可以说谁能够更好的利用大数据 ...
- 浅谈数据分析、大数据分析和大数据开发的区别
自我介绍 在大学期间主要学习一些数据分析的课程例如,统计学,多元统计学,数据挖掘,matalb,R语言统计分析,时间序列分析,也参加了几次数学建模竞赛.对数据分析也有些了解. 实习时进了一家大数据公司 ...
- 大数据开发、大数据分析、大数据运维主要工作各是什么?哪个好?
本文转自https://blog.csdn.net/weixin_34318956/article/details/87302823 首先,工作本身没有好坏之分,只有门槛高低之别.大数据开发.大数据分 ...
- 大数据开发、大数据分析、大数据运维主要工作各是什么?哪个好?谢谢?
首先,工作本身没有好坏之分,只有门槛高低之别.大数据开发.大数据分析.大数据运维都围绕着大数据展开.如果我们把大数据去掉,就只剩下,开发,分析,运维.当然还有其它的工作,例如运营,产品,讲师,测试等. ...
- 《Spark大数据分析:核心概念、技术及实践》一1.5 NoSQL
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1.5节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...
- 《Spark大数据分析:核心概念、技术及实践》一3.6 惰性操作
本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第3章,第3.6节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区& ...
- 人机交互、大数据分析:移动互联网的技术创新探索
人机交互.大数据分析:移动互联网的技术创新探索 width="22" height="16" src="http://hits.sinajs.c ...
- 三种数据交换技术的比较
三种数据交换技术的比较 http://book.51cto.com 2007-04-23 17:55 王达 电子工业出版社 我要评论(1) 摘要:本章主要介绍局域网.广域网,以及OSI各层主要 ...
最新文章
- Spark Streaming 执行流程
- 基于firefly rk3399 Android 7.1实现的ros服务小机器人
- 1688 复杂业务场景下的 Serverless 提效实践
- ITK:生成随机图片
- 分布式和集群的概念和区别
- java并发访问_Java并发访问
- Android自定义柱状图表效果
- UI素材模板|新拟态新趋势图标ICON
- linux定时备份前一天,linux定时备份
- ActiveMQ常见配置
- 30 分钟学 Erlang
- CSA FT1、FT2、FT4、FT5 和 FT6
- 35 红外接收头在linux内核里的驱动
- VUE项目前端页面添加水印
- win11怎样修改开机音乐 windows11修改开机音乐的步骤教程
- Exercise11-Matplotlib
- 数据集成平台,多种数据源融合
- 用普通io检测水箱是否有水电路
- obspy中文教程(五)
- IDC FutureScape:2023年中国未来数字创新十大预测
热门文章
- 吸引子传播(Affinity Propagation)算法
- java 金字塔 2的幂_三角形数(金字塔三角形数量公式)
- 面向临床需求的CT图像降噪综述
- 安卓如何修改dns服务器地址,安卓手机怎么修改DNS?安卓手机修改DNS服务器图文详情介绍[多图]...
- 其它——简历编写、五险一金、补充一些就业相关的东西
- 实验一. 路由器IP地址配置及直连网络
- 计算机网络 理解拥塞控制
- STM32F412 串口接收不到数据的问题
- fileuploads
- ORA-01045 :user 用户名 lacks create session privilege; logon denied