目标

了解,验证数据集

了解变量关系,与预测值之间关系

数据处理、特征工程

数据探索性分析

EDA探索性数据分析

通过EDA可实现:

1. 得到数据的直观表现 

2. 发现潜在的结构

3. 提取重要的变量

4. 处理异常值

5. 检验统计假设

6. 建立初步模型

7. 决定最优因子的设置

数据类型

数据一般按类型分为两种:离散型连续型;

离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量和有序变量。

对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。

统计量

中位数、方差、 内距(Q3−Q1Q3−Q1)

箱线图和直方图

一般步骤

1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。

常见问题:

- 一般统计量:均值,中位数,方差,分布,分位数,

- 工程修改是否 产生作用:变量变换、缺失值处理

- 自变量是否对结果有影响

- 响应变量和自变量之间的最佳函数

- 时间相关数据能否信噪分离

- 多维变量提取结构?

- 离群值?

知识树:

实战案例

目标名称:水的供应和用水是否与人均国内生产总值有关?(提出假设)

数据源:http://www.fao.org/nr/water/aquastat/data/query/index.html下图数据源界面(如果您经常做学术研究,例如OECD等数据都是这样的。)

数据源简单介绍

网站:http://www.fao.org/nr/water/aquastat/metadata/index.stm

组织的三个主要目标是:

1.消除饥饿、粮食不安全和营养不良

2.消除贫困促进经济社会进步

3.自然资源的可持续管理和利用,包括土地、水、空气、气候和遗传资源,以造福今世后代。

为支持这些目标,《宪法》第1条要求粮农组织“收集、分析、解释和传播与营养、粮食和农业有关的信息”。因此,水温自动调节器开始,其目的是通过收集有助于联合国粮农组织的目标,与水资源相关的信息传播分析,用水和农业用水管理,对国家重点在非洲,亚洲,美国,拉丁美洲,加勒比海。

联合国粮农组织提供数据,元数据,报告国家概况,河流域概况,分析区域,图,表空间,数据,指导方针,和其他的在线工具:

1、水资源:内部、跨界、总

2、水的用途:按部门,按来源,废水

3、灌溉:地点、面积、类型、技术、作物

4、水坝:位置,高度,容量,表面积

5、与水有关的机构、政策和立法

项目软件:软件python 3.6展示的软件Anaconda里面的jupster notebook,运行环境Window7,使用电脑Thinkpad T450。

项目计划

通过对数据有简单的预估,这个时候,由于自己的电脑内存比较小,跑上十万以后的数据都会有明显的卡顿,为此采取了一个特殊的策略—使用Tidy Data进行试验。Tidy Data大家可能不熟悉,我直接也给大家上了干货。TidyData的官方解读:https://tomaugspurger.github.io/modern-5-tidy.html直接连接可以查看如何使用小批量的数据进行实验。

本实验的目标为三点:每个变量形成一个列,每个观测值形成一行,不同类型的观测单元组成一个表格。

数据转换:

1、取对数log:当数据的峰值很高,通过将数据取对数能够将数据归一化处理。

2、连续变量分组(bin):分组连续变量,能够更加简便的了解观测值的分布。

3、简化类别:一个单一的数据,往往类别太多会让人迷乱,一般不想超过8-10列,那就尽量找到重要的类别。(机器学习里面这一个部分很重要,和特征选择一样)

项目开始

第一步,不可或缺的导入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings大家对这四个包不熟悉的可以百度官方网站,有专门的材料。特别主要的就是Seaborn,这个库目前可视化的能力已经超过之前对Python的理解,有很多人说R可视化效果很好,但是我觉得这个可视化一点都不差。%matplotlib inline很多人不懂为什么会加上这个意思,这就是在jupter画图的时候,能够将可视化的图能够在结果中展现出来,我试过很多时候忘记加,结果图就只出现一行字。所以需要加上这个。

第二步,导入数据

由于数据是压缩包的形式,我们平时一般的是CSV,TXT的格式,那我们可以试一试压缩包的读取方式。对数据进行基本的了解,Pandas为我们提供了很多可以简便查看和检查数据的方法。data.info(),data.shape,data.head(),data.tail()。

结果展示:

之后的四步,见下一篇博文。

task2 EDA数据分析相关推荐

  1. task2 EDA探索性数据分析

    1.赛题数据 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量.为了保证比赛的公平性,将会 ...

  2. python程序员工资高吗_Python程序员必备:EDA数据分析神器,老板疯狂加工资

    EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程. 1. Pandas_Profiling 这个属于三个中最轻便.简单的了.它可以快速生成报告,一览变量概况.首先,我们需要 ...

  3. Datawhale零基础入门金融风控 Task2/4 数据分析

    Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘 - 零基础入门金融风控 ...

  4. 2020-03-24打卡——Task2:数据的探索性分析(EDA)

    2020-03-24打卡--Task2:数据的探索性分析(EDA) 用pandas_profiling生成数据报告:用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单.方便 ...

  5. 二手车交易价格预测-task2

    数据挖掘入门- 二手车交易价格预测-task2 EDA(Exploratory Data Analysis)-数据探索性分析 2.1 EDA目标 2.2 内容介绍 2.3 经验总结 EDA(Explo ...

  6. DataWhale数据挖掘学习--Task 2 数据分析

    EDA数据分析 2.1 数据加载 2.2 查看数据概况 2.3 检测缺失值.异常值.重复值 2.3.1 缺失值判断 2.3.2 缺失值可视化 missingno矩阵查看缺失值 missingno条形图 ...

  7. 数据分析模板一赛题分析(预测房屋租金)

    总结一份属于自己的模板,不管三七二十一,拿来先套用.方便自己学习和记录. 拿到一份赛题数据,我们要赛题分析.就做以下2点. 认识数据 对比赛数据做EDA 1.认识数据 了解比赛的背景 你是做金融数据分 ...

  8. 数据分析入门(学术前沿趋势分析)Task1-论文数据统计

    此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作.赛题内容包括对论文数量.作者出现频率.论文源码的统计,对论文进行分类以及对论文作者的关系进行建模. 目 ...

  9. 一文搞定深度学习建模预测全流程(Python)

    作者 | 泳鱼 来源 | 算法进阶 本文详细地梳理及实现了深度学习模型构建及预测的全流程,代码示例基于python及神经网络库keras,通过设计一个深度神经网络模型做波士顿房价预测.主要依赖的Pyt ...

最新文章

  1. 运维开发必会技能之一——虚拟机管理
  2. Powershell script for config_Win10
  3. linux 内核 netfilter 网络过滤模块 (2)-conntrack
  4. 关于cookie 跨页面处理
  5. Python3比较运算符
  6. BZOJ.4552.[HEOI2016/TJOI2016]排序(线段树合并/二分 线段树)
  7. rds oracle utl file,本地Oracle数据上传到AWS的RDS
  8. 如何保证执行异步方法时不会遗漏 await 关键字
  9. 核销规则配置好之后 验证核销规则和本地测试过程
  10. request_irq() | 注册中断服务【ZT】
  11. web项目中保存emoji到mysql数据库
  12. Java(2)数据类型转换、变量和常量
  13. Netty源码解析1-Buffer 1
  14. Win8 ××× 客户端安装出现 An error occurred installing the TAP device driver 错误的解决...
  15. 组图:1968年墨西哥城奥运会
  16. 动态修改 DHTML Gantt甘特图皮肤样式
  17. 【每日面试】2021政采云Java一面
  18. Java 生成各种 PDF 实战方案(图片、模板、表格)
  19. Excel Application对象应用
  20. 圣科鲁兹 计算机专业,加州大学圣克鲁兹分校计算机工程硕士专业 将发明创新融入到工业中!...

热门文章

  1. 俞永福卸任阿里大文娱董事长,改任 eWTP 投资组长
  2. windows(win7,win8,xp)hosts文件找不到原因分析及解决方法
  3. Android权限Uri.parse总结
  4. iphone viewdidLoad运行以及参数的传递。
  5. nginx 带宽_Nginx的Gzip功能
  6. java scanner_Java Scanner radix()方法与示例
  7. 建立单链表 单链表的插入_单链列表插入
  8. linux进程q是什么意思,Linux进程
  9. 大学物理实验电学基本参数的测量实验报告_大学物理电学实验报告
  10. python随机抽签列表中的同学值日_神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号...