数据特征分析

对于数据的特征分析是十分重要的,可以让我们更加的了解数据的信息,在下一步的数据分析、数据建模能帮助我们做出更好的决策。同时能给我们在解决问题上提供灵感。

数据特征分析可以分为如下几类
1.分布分析
2对比分析
3.统计量分析
4.周期性分析
5.贡献度分析
6.相关度分析

下面我就来大致介绍一下上面六种特征分析

分布分析:
分布分析要针对两种类型的变量进行不同的处理。
对于定量变量而言,选择”组数“和组宽是做频率分布分析时最重要的问题,一般按照以下步骤进行。
1)求极差
2)决定组距和组数
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图

对于定性变量而言,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

对于定性变量和定量变量这里做一个接单介绍:

定性变量是统计学的概念,又名分类变量 ,观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。

定量变量 也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,称为定量变量。

对比分析:

对比分析是指把两个相互联系的指标进行比较,从数量上展示盒说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。

对比分析主要有以下两种形式
(1)绝对数比较
绝对数比较式利用绝对数进行对比,从而寻找差异的一种方法。
(2)相对数比较
相对数比较式由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种。

统计量分析:

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
集中趋势度量指标
平均值,中位数,众数
离中趋势度量指标
极差,标准差,变异系数,四分位间距

周期性分析:

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势,季节周期性趋势,相对较短的有月度周期性趋势和周度周期性趋势,甚至更短。

贡献度分析:
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20/80定律。同样的投入放在不同的地方会产生不同的收益。

”相关性分析:

分析连续变量之间的现行相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

可以绘图分析,也可以计算一些衡量相关性的参数,如person系数,Spearman秩相关系数。

这里先大致介绍一下,以后我还会详细介绍这部分内容。

数据探索-数据特征分析相关推荐

  1. R语言 零基础入门教程第11章 Rattle可视化数据挖掘工具(1)Rattle简介及安装 功能预览 数据导入 数据探索 数据建模 模型评估 Rattle实例

    关注公众号凡花花的小窝,收获更多的考研计算机专业编程相关的资料 本章内容 Rattle简介及安装 功能预览 数据导入 数据探索 数据建模 模型评估 Rattle实例 本章目标 了解Rattle的安装及 ...

  2. 机器学习之数据探索——数据特征分析(对比分析与统计量分析)

    在数据探索工作中,作为数据特征分析的角度,对比分析.统计量分析同样是发掘数据间关系与数据特征的重要渠道. 1 对比分析 对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小, ...

  3. 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

    数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章.数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...

  4. python数据分析与挖掘数据之探索数据

    文章目录 三.数据探索 数据质量分析 缺失值分析 异常值分析 一致性分析 数据特征分析 1.分布分析 2.对比分析 3.统计量分析 4.周期性分析 分析:总体来看,正常用户和窃电用户在2012年2月份 ...

  5. 数据分析系列之数据探索

    根据观测,调查收集到的初步的样本数据集后,接下来要考虑的是样本的数据集的数量和质量是否满足模型构建的要求 ,是否出现从未设想过的数据状态?其中有什么明显的规律趋势,各因素之间有什么关联性?通过检验数据 ...

  6. 二手车价格预测实战(一)——数据探索

    目录 1.理解赛题: 背景 基础知识 2.数据探索 数据概况 探索性数据分析 缺失值可视化 查看变量分布 查看预测值价格的分布 查看变量间的关系 分析日期与价格关系 3.总结 1.理解赛题: 赛题:零 ...

  7. 数据竞赛专题 | 数据探索-从数据中发现隐藏价值

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...

  8. Python数据挖掘:数据探索,数据清洗,异常值处理

    来源:天善智能韦玮老师 课堂笔记 作者:Dust 探索性数据分析Exploratory Data Analysis,EDA 数据探索的核心是︰ 1.数据质量分析(跟数据清洗密切联系) 2.数据特征分析 ...

  9. 数据分析与挖掘理论-数据探索

    数据探索 一般而言,数据探索是样本数据集采集到后的第一步. 指的是通过检验数据集的数据质量.图表绘制.特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程. 常见的数据探索角度分为数据质量分析 ...

最新文章

  1. 30+的中年打工人加班最狠!全球一年74.5万人“过劳死”丨世卫组织官方统计
  2. oracle批量插入并且返回自增主键_oracle 自增主键实现批量更新和增加sql
  3. 【多线程】0.理解一下5种IO模型、阻塞IO和非阻塞IO、同步IO和异步IO
  4. AIX操作系统启动详细介绍
  5. 前端学习(2470):echart复习电商管理通过erchart基本使用
  6. 改善深层神经网络:超参数调整、正则化以及优化 —— 3.2 为超范围
  7. zynqpl端时钟_zynq中纯PL编程 - CSDN博客
  8. BootStrap里面好看的背景色
  9. 2013年1月7日学习内容
  10. java并查集找朋友圈_并查集求朋友圈最大人数
  11. 终于 知道为什么datagrid有时候翻页要双击了...
  12. 华为ensp静态路由配置
  13. nestjs连接mysql数据库的方法与使用
  14. 界面原形设计/UI原型设计
  15. Halcon算子threshold、dyn_threshold、binary_threshold、auto_threshold、fast_threshold、var_threshold
  16. sis最新ip地址2020入口一_【新版教材】2020最新人教版高中历史教材必修一电子课本...
  17. Chrome启动页设置无效完美解决
  18. 在HTML网页中怎样写大于号和小于号
  19. 模仿天猫实战【SSM版】——后台开发
  20. amd6800h安装ubuntu22.04 笔记本休眠花屏解决办法

热门文章

  1. 移动邮箱(@139.com):启用IMAP/SMTP服务+获取授权码
  2. 系统思考:吉塔行星之高效决策与执行
  3. CRC32原理及实现学习
  4. pytorch set seed
  5. 毫无保留的共享经济,这场开源盛会你不能错过!
  6. OFBiz终于起航了
  7. 凯撒加密的python语言程序_Python的凯撒密码加密为啥要ord(a),然后又减去?...
  8. linux怎么设置开机启动守护进程,linux设置开机自启-systemctl
  9. 从键盘读取一个数字,判断是否是3和5的倍数
  10. [Python] Python 获取中文的首字母 和 全部拼音首字母