数据的统计分析分为描述性统计分析和统计推断两部分, 前者又称为探索性统计分析, 它是通过绘制统计图形、编制统计表格、计算统计量等方法来探索数据的主要分布特征, 揭示其中存在的规律. 探索性数据分析是进行后期统计推断的基础.
本文着重于数据集的数字化探索。程序包DAAG中有内嵌数据集“possum”,它包括了从维多利亚南部到皇后区的七个地区的104只负鼠(possum)的年龄、尾巴的长度、总长度等14个特征值,选用这套数据集进行分析。

#数据概况
library(DAAG)
data(possum)
nrow(possum)   #显示数据集的行、列、维度
ncol(possum)
dim(possum)
head(possum)  #显示数据集的前若干条
attributes(possum)  #获取数据集属性列表

str(possum)   #获取数据样本数、变量数、各变量的类型及取值情况

summary(possum) #获取数据集变量概况

#变量详情
library(Hmisc)
describe(possum[,1:3])


备注:对于每一变量,给出了样本总个数(n),缺失样本数(missing)、水平个数(unique),并列出每一水平的取值、频数和频率。这里需要说明的是,对于case变量,输出结果给出了频率最低和最高的5个水平值,在数据分布有偏情况下,这些水平值很有可能成为异常值。

library(fBasics)  #用于做时间序列统计分析包,也可用于一般数据集
basicStats(possum$case)


备注:输出结果包括前面给出的样本数(nobs),缺失值(NAs),最小值最大值,同时也有特有的指标,变量取值之和(Sum),标准误差均值(SE Mean)、95%的置信水平上下限、方差、标准误差,以及两个分布指标偏度和峰度。

#分布指标  (这里主要介绍两个重要分布指标——偏度和峰度,一些常见的概率分布倾向于用直方图等可视化方式来表示)
library(timeDate)
skewness(possum[,6:7]) #计算这两列变量的偏度kurtosis(possum[,6:7]) #计算这两列变量的峰度

备注:偏度用来衡量数据的堆成程度,以正太分布为基准。当服从正太分布时,偏度为0;当介于[-1,1]之间时,说明数据分布的对称性较强;当绝对值大于1时,则认为数据存在显著偏倚,为正时有右偏的趋势,反之左偏。
峰度用来衡量数据分布形态的陡缓程度,以正太分布为基准。当值为0时,说明与正太分布相同,即标准峰度;当峰度大于0时,则表示该数据分布与正太分布相比较为陡峭,为尖顶峰度;当峰度小于0时,则表示该数据分布与正太分布相比较为平坦,为平顶峰度。

#缺失值
library(mice)
md.pattern(possum)  #显示数据集中缺失值分布的情况


备注:最左边一列:101表示无缺失值样本总数,2表示age缺失2个样本,1表示footlgth缺失1个样本;最下边一行对应每个属性缺失的样本个数,其中最后一个3表示总缺失值个数;最右边一列表示对应行几个变量发生缺失的情况。

#相关性
cor(possum$case,possum$site)
var=c(5:9)
cor_matrix=cor(possum[var],use="pairwise") #对5个变量两两计算相关系数
library(ellipse)#可视化相关图
plotcorr(cor_matrix,col=rep(c("white","black"),5))


备注:圆形的宽窄表示相关性的高低,两变量对应的圆形越窄,表明其相关性越高。

基于R统计分析——探索性数据分析相关推荐

  1. R语言explore包进行探索性数据分析实战(EDA、exploratory data analysis):基于iris数据集

    R语言explore包进行探索性数据分析实战(EDA.exploratory data analysis):基于iris数据集 目录

  2. R语言之探索性数据分析篇

    转载自:http://blog.csdn.net/lilanfeng1991/article/details/18565955 探索性数据分析(Exploratory Data Analysis,ED ...

  3. 李倩星r语言实战_《基于R的统计分析与数据挖掘》教学大纲

    <基于 R 的统计分析与数据挖掘>课程教学大纲 课程代码: 090542009 课程英文名称: R Language and Data Mining 课程总学时: 32 讲课: 32 实验 ...

  4. 探索性数据分析入门_入门指南:R中的探索性数据分析

    探索性数据分析入门 When I started on my journey to learn data science, I read through multiple articles that ...

  5. GIS空间分析 地统计分析2 探索性数据分析

    实验数据:见个人资源<GIS空间分析教学数据>免费下载,仅供学习使用 其他GIS空间分析文章 一.实验名称 地统计分析之探索性数据分析 二.实验目的 掌握分析数据分布特征及空间趋势的基本方 ...

  6. R语言单因素方差分析(One-Way ANOVA)实战:探索性数据分析(EDA)、单因素方差分析模型结果解读(检查模型假设)、分析不同分组的差异TukeyHSD、单因素方差分析的结果总结

    R语言单因素方差分析(One-Way ANOVA)实战:探索性数据分析(EDA).单因素方差分析模型结果解读(检查模型假设).分析不同分组的差异TukeyHSD.单因素方差分析的结果总结 目录 R语言 ...

  7. R语言SVM支持向量机模型数据分类实战:探索性数据分析、模型调优、特征选择、核函数选择

    R语言SVM支持向量机模型数据分类实战:探索性数据分析.模型调优.特征选择.核函数选择 目录 R语言SVM支持向量机模型数据分类实战:探索性数据分析.模型调优.特征选择.核函数选择 ​ #SVM基本原 ...

  8. 带你和Python与R一起玩转数据科学: 探索性数据分析(附代码)

    作者:Jose A Dianes 翻译:季洋 校对:丁楠雅 本文约5822字,建议阅读20+分钟. 本系列将介绍如何在现在工作中用两种最流行的开源平台玩转数据科学.先来看一看数据分析过程中的关键步骤 ...

  9. 基于Spark的银行直销电话数据探索性数据分析

    基于Spark的银行直销电话数据探索性数据分析 一.业务场景 二.数据集说明 三.操作步骤 阶段一.启动HDFS.Spark集群服务和zeppelin服务器 阶段二.准备案例中用到的数据集 阶段三.对 ...

最新文章

  1. 到底选择PostgreSOL还是MySQL?看这里!
  2. unicode字符串 转 中文
  3. 并发编程(三)原子操作CAS
  4. C++ WMI获取usb deviceID数据不全的问题 Win32_USBHub
  5. 实验12 编写0号中断的处理程序
  6. 登录用户Eclipse中SVN访问用户的变更办法
  7. layui 表单动态添加、删除input框
  8. 201521123087 蒋勃超 软工作业
  9. 股东接连减持 寒武纪2021年净亏损8.47亿元
  10. 以拼多多为例,中国互联网企业在农业上都做了哪些努力?
  11. python代码_零基础小白必看篇:Python代码注释规范代码实例解析操作(收藏)
  12. 关于ajax请求controller返回中文乱码的解决方法!
  13. 【散文】 漫步在春天
  14. 集合分页展示,补全最后一页
  15. 解决虚拟机IP地址无法获取和网络无法连接
  16. 一键搭建Centos开发环境
  17. 关于Protel 2004 绘制电路原理图——遇到的一些小问题
  18. 学计算机专业还是数学专业课,数学专业的数学和计算机专业的数学的比较.doc...
  19. deepin-wine安装
  20. 爱普生(EPSON)喷墨打印机清零工具SSC Service Utility V4.3中文版使用说明(转载)

热门文章

  1. 基于bootstrap的富文本框——wangEditor【欢迎加入开发】
  2. 《如何阅读一本书》-1总括
  3. hive实现树形结构展开
  4. 数据结构之每日一练-02(冒泡排序)
  5. python randint什么分布_Randint并不总是遵循均匀分布
  6. Koa2框架快速入门与基本使用
  7. 【原】Java学习笔记018 - 面向对象
  8. OSGEARTH3 绘制点线面
  9. testlink 自定义字段
  10. Java标识符的使用