task2 EDA数据分析
目标
了解,验证数据集
了解变量关系,与预测值之间关系
数据处理、特征工程
数据探索性分析
EDA探索性数据分析
通过EDA可实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步模型
7. 决定最优因子的设置
数据类型
数据一般按类型分为两种:离散型和连续型;
离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量和有序变量。
对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。
统计量
中位数、方差、 内距(Q3−Q1Q3−Q1)
箱线图和直方图
一般步骤
1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。
常见问题:
- 一般统计量:均值,中位数,方差,分布,分位数,
- 工程修改是否 产生作用:变量变换、缺失值处理
- 自变量是否对结果有影响
- 响应变量和自变量之间的最佳函数
- 时间相关数据能否信噪分离
- 多维变量提取结构?
- 离群值?
知识树:
实战案例
目标名称:水的供应和用水是否与人均国内生产总值有关?(提出假设)
数据源:http://www.fao.org/nr/water/aquastat/data/query/index.html下图数据源界面(如果您经常做学术研究,例如OECD等数据都是这样的。)
数据源简单介绍:
网站:http://www.fao.org/nr/water/aquastat/metadata/index.stm
组织的三个主要目标是:
1.消除饥饿、粮食不安全和营养不良
2.消除贫困促进经济社会进步
3.自然资源的可持续管理和利用,包括土地、水、空气、气候和遗传资源,以造福今世后代。
为支持这些目标,《宪法》第1条要求粮农组织“收集、分析、解释和传播与营养、粮食和农业有关的信息”。因此,水温自动调节器开始,其目的是通过收集有助于联合国粮农组织的目标,与水资源相关的信息传播分析,用水和农业用水管理,对国家重点在非洲,亚洲,美国,拉丁美洲,加勒比海。
联合国粮农组织提供数据,元数据,报告国家概况,河流域概况,分析区域,图,表空间,数据,指导方针,和其他的在线工具:
1、水资源:内部、跨界、总
2、水的用途:按部门,按来源,废水
3、灌溉:地点、面积、类型、技术、作物
4、水坝:位置,高度,容量,表面积
5、与水有关的机构、政策和立法
项目软件:软件python 3.6展示的软件Anaconda里面的jupster notebook,运行环境Window7,使用电脑Thinkpad T450。
项目计划:
通过对数据有简单的预估,这个时候,由于自己的电脑内存比较小,跑上十万以后的数据都会有明显的卡顿,为此采取了一个特殊的策略—使用Tidy Data进行试验。Tidy Data大家可能不熟悉,我直接也给大家上了干货。TidyData的官方解读:https://tomaugspurger.github.io/modern-5-tidy.html直接连接可以查看如何使用小批量的数据进行实验。
本实验的目标为三点:每个变量形成一个列,每个观测值形成一行,不同类型的观测单元组成一个表格。
数据转换:
1、取对数log:当数据的峰值很高,通过将数据取对数能够将数据归一化处理。
2、连续变量分组(bin):分组连续变量,能够更加简便的了解观测值的分布。
3、简化类别:一个单一的数据,往往类别太多会让人迷乱,一般不想超过8-10列,那就尽量找到重要的类别。(机器学习里面这一个部分很重要,和特征选择一样)
项目开始:
第一步,不可或缺的导入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings大家对这四个包不熟悉的可以百度官方网站,有专门的材料。特别主要的就是Seaborn,这个库目前可视化的能力已经超过之前对Python的理解,有很多人说R可视化效果很好,但是我觉得这个可视化一点都不差。%matplotlib inline很多人不懂为什么会加上这个意思,这就是在jupter画图的时候,能够将可视化的图能够在结果中展现出来,我试过很多时候忘记加,结果图就只出现一行字。所以需要加上这个。
第二步,导入数据
由于数据是压缩包的形式,我们平时一般的是CSV,TXT的格式,那我们可以试一试压缩包的读取方式。对数据进行基本的了解,Pandas为我们提供了很多可以简便查看和检查数据的方法。data.info(),data.shape,data.head(),data.tail()。
结果展示:
之后的四步,见下一篇博文。
task2 EDA数据分析相关推荐
- task2 EDA探索性数据分析
1.赛题数据 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量.为了保证比赛的公平性,将会 ...
- python程序员工资高吗_Python程序员必备:EDA数据分析神器,老板疯狂加工资
EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程. 1. Pandas_Profiling 这个属于三个中最轻便.简单的了.它可以快速生成报告,一览变量概况.首先,我们需要 ...
- Datawhale零基础入门金融风控 Task2/4 数据分析
Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘 - 零基础入门金融风控 ...
- 2020-03-24打卡——Task2:数据的探索性分析(EDA)
2020-03-24打卡--Task2:数据的探索性分析(EDA) 用pandas_profiling生成数据报告:用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单.方便 ...
- 二手车交易价格预测-task2
数据挖掘入门- 二手车交易价格预测-task2 EDA(Exploratory Data Analysis)-数据探索性分析 2.1 EDA目标 2.2 内容介绍 2.3 经验总结 EDA(Explo ...
- DataWhale数据挖掘学习--Task 2 数据分析
EDA数据分析 2.1 数据加载 2.2 查看数据概况 2.3 检测缺失值.异常值.重复值 2.3.1 缺失值判断 2.3.2 缺失值可视化 missingno矩阵查看缺失值 missingno条形图 ...
- 数据分析模板一赛题分析(预测房屋租金)
总结一份属于自己的模板,不管三七二十一,拿来先套用.方便自己学习和记录. 拿到一份赛题数据,我们要赛题分析.就做以下2点. 认识数据 对比赛数据做EDA 1.认识数据 了解比赛的背景 你是做金融数据分 ...
- 数据分析入门(学术前沿趋势分析)Task1-论文数据统计
此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作.赛题内容包括对论文数量.作者出现频率.论文源码的统计,对论文进行分类以及对论文作者的关系进行建模. 目 ...
- 一文搞定深度学习建模预测全流程(Python)
作者 | 泳鱼 来源 | 算法进阶 本文详细地梳理及实现了深度学习模型构建及预测的全流程,代码示例基于python及神经网络库keras,通过设计一个深度神经网络模型做波士顿房价预测.主要依赖的Pyt ...
最新文章
- 运维开发必会技能之一——虚拟机管理
- Powershell script for config_Win10
- linux 内核 netfilter 网络过滤模块 (2)-conntrack
- 关于cookie 跨页面处理
- Python3比较运算符
- BZOJ.4552.[HEOI2016/TJOI2016]排序(线段树合并/二分 线段树)
- rds oracle utl file,本地Oracle数据上传到AWS的RDS
- 如何保证执行异步方法时不会遗漏 await 关键字
- 核销规则配置好之后 验证核销规则和本地测试过程
- request_irq() | 注册中断服务【ZT】
- web项目中保存emoji到mysql数据库
- Java(2)数据类型转换、变量和常量
- Netty源码解析1-Buffer 1
- Win8 ××× 客户端安装出现 An error occurred installing the TAP device driver 错误的解决...
- 组图:1968年墨西哥城奥运会
- 动态修改 DHTML Gantt甘特图皮肤样式
- 【每日面试】2021政采云Java一面
- Java 生成各种 PDF 实战方案(图片、模板、表格)
- Excel Application对象应用
- 圣科鲁兹 计算机专业,加州大学圣克鲁兹分校计算机工程硕士专业 将发明创新融入到工业中!...
热门文章
- 俞永福卸任阿里大文娱董事长,改任 eWTP 投资组长
- windows(win7,win8,xp)hosts文件找不到原因分析及解决方法
- Android权限Uri.parse总结
- iphone viewdidLoad运行以及参数的传递。
- nginx 带宽_Nginx的Gzip功能
- java scanner_Java Scanner radix()方法与示例
- 建立单链表 单链表的插入_单链列表插入
- linux进程q是什么意思,Linux进程
- 大学物理实验电学基本参数的测量实验报告_大学物理电学实验报告
- python随机抽签列表中的同学值日_神奇的大抽签--Python中的列表_章节测验,期末考试,慕课答案查询公众号...