python花数_Python数据分析实战,尾鸢花数据集数据分析
本节所使用的尾鸢花数据集是Python中自带的数据集,常用于机器学习分类算法模型,其中sepal_length_cm、sepal_width_cm、petal_length_cm、petal_width_cm、class字段代表的含义分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、尾鸢花的类别。
一、数据来源
from pandas import Series,DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns #导入seaborn绘图库
%matplotlib inline
iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-data.csv'))
iris_data.head()
二、问题探索
通过数据可视化和分析,按照尾鸢花的特征分出尾鸢花的类别。
三、数据清洗
iris_data.shape
(150, 5)
共有150条数据,5列。
iris_data.describe()
由描述统计可以看出,数据没有缺失值。
iris_data['class'].unique() #查看唯一值
array(['Iris-setosa', 'Iris-setossa', 'Iris-versicolor', 'versicolor','Iris-virginica'], dtype=object)
iris_data.ix[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
iris_data.ix[iris_data['class'] == 'Iris-setossa', 'class'] = 'Iris-setosa'
iris_data['class'].unique() #查看唯一值
array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)
sns.pairplot(iris_data, hue='class')
利用seaborn绘制散点图矩阵,通过第一列可看出,有几个Iris-versicolor样本中的sepal_length_cm值偏移了大部分的点,通过第二行可看出,一个Iris-setosa样本的sepal_width_cm值偏离了大部分点。
iris_data.ix[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()
对通过Iris-setosa的花萼宽度绘制直方图也能观测出异常。
过滤小于2.5cm的数据后再做直方图。
iris_data = iris_data.loc[(iris_data['class'] != 'Iris-setosa') | (iris_data['sepal_width_cm'] >= 2.5)]
iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()
通过索引选取Iris-versicolor样本中sepal_length值小于0.1的数据,选取异常数据。
iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0)]
iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0),'sepal_length_cm'] *= 100.0
发现花瓣宽度有5条缺失值,由于3种分类数据样本均衡,直接将缺失值删除处理。
iris_data.isnull().sum()
发现花瓣宽度有5条缺失值。
iris_data[iris_data['petal_width_cm'].isnull()] #处理缺失值
iris_data.dropna(inplace=True)
iris_data.to_csv('D:\python数据分析\数据\iris-clean-data.csv', index=False) #保存清洗后的数据
iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-clean-data.csv'))
iris_data.head()
iris_data.shape
(144, 5)
数据清洗后,有144条数据,5列。
四、数据探索
sns.pairplot(iris_data, hue='class')
绘制散点矩阵图可以发现,大部分情况下数据接近正态分布,而且Iris-setosa与其他两种花是线性可分的,其他两种花型可能需要非线性算法进行分类。
iris_data.boxplot(column='petal_length_cm', by='class',grid=False,figsize=(6,6))
通过petal_length_cm(花瓣长度)可以轻松区分Iris-setosa与其他两种花。
python花数_Python数据分析实战,尾鸢花数据集数据分析相关推荐
- python数据分析实战之宝可梦数据分析
学习介绍: 经过python基础的学习,利用一个数据分析实战,实现数据分析. 学习内容目录: 1. 数据导入 2.处理 3. 排序 4. 相关性分析 5.筛选 学习内容: 一.数据集下载 !wget ...
- 万字长文,Python数据分析实战,使用Pandas进行数据分析
文章目录 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...
- Excel数据分析实战之开宗明义: Excel与数据分析实战
大家好,我是爱编程的喵喵.双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中.从事机器学习以及相关的前后端开发工作.曾在阿里云.科大讯飞.CCF等比赛获得多次Top名次.喜 ...
- 【每周一本书】之《游戏数据分析实战》:盛大游戏数据分析专家亲历16年的实战经验分享
[数据猿导读]<游戏数据分析实战>贯穿整个游戏生命周期,提供了丰富的数据分析案例,从预热到封测,再到公测, 均为作者在实际工作中经历的真实案例.案例分析包含数据来源.分析方法.分析过程.分 ...
- 简笔彩色圣诞树的python代码_Python绘图,圣诞树,花,爱心 | Turtle篇-Go语言中文社区...
1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle. ...
- 基于python的大数据分析实战学习笔记-pandas(数据分析包)
pandas是什么呢?可能大家会看到各种解释,其实ta就是一个数据分析包啊.....没啥可解释的 pandas中常见的数据结构有三种,Series(一维数组,也叫序列),DataFrame(二维表格, ...
- python花数_python交换数字a b怎么用python画花朵
怎么用python画花朵?下面给大家讲解一下具体步骤: 第一步,打开菜单栏,输入idle,打开shell. 第二步,新建一个文件,并命名. 第三步,导入turtle模块,创建一个新窗口用于绘图,再创建 ...
- python通信测试_Python接口测试实战1(上)- 接口测试理论
本节内容 接口及接口测试 网络基础知识:IP,域名, DNS及端口 网络基础知识:OSI七层模型及TCP协议 HTTP协议 接口及接口测试 接口的概念 接口又称API(Application Prog ...
- python 随机数_python项目实战:实现蒙特卡罗方法,求物体阴影面积
前言 蒙特卡罗方法是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法.与它对应的是确定性算法.蒙特·卡罗方法在金融工程学,宏观经济学,计算物理学(如粒子输运计算.量子热力学计算.空气动力学计 ...
最新文章
- Delegate和Command Pattern
- linux命令netstat
- cypress测试框架与selenium_selenium自动化测试框架之PO设计模式
- VC在windows下编写用于串行通讯的程序
- [USACO09HOL]假期绘画Holiday Painting
- MFC DLL 导出函数的定义方式
- “找不到网络路径”的检测方法及解决方案
- request 和 session 获取方法
- Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
- 纯HTML个人清新网站源码
- 大学生静态HTML鲜花网页设计作品 DIV布局网上鲜花介绍网页模板代码 DW花店网站制作成品 web网页制作与实现
- word高级技能之自动生成图目录/表目录
- 总体参数的假设检验 R
- 遇见逆水寒服务器维护时间,《遇见逆水寒》7月23日更新公告
- 微信公众号文章排版中,去掉图片和图片之间的空白
- Word——图表如何交叉引用-插入题注-交叉引用
- excel行列互换_EXCEL图表中的堆积柱形图如何行列互换
- 日本NHK推出人工智能主播,可模拟真人主播声音播报新闻
- 51单片机串口通信原理
- 新辰:浅谈那些被挑毛病的90后创业者 到底谁错了?
热门文章
- 深度学习时间序列预测:GRU算法构建多变量时间序列预测模型+代码实战
- 主题模型简介(Topic Models)
- ElasticSearch+聚合+Aggregation+示例
- 数据不平衡(class_weight、评估方法、上采样、下采样)、详解及实战
- 用php计算自由落体,js模仿物理中的自由落体现象
- 合肥学院计算机论文,《合肥学院毕业论文模版》.doc
- mysql tomcat 自动重连_基于tomcat+mysql的c/s模式下的系统自动更新
- python播放视频
- 人脸对齐--Face Alignment In-the-Wild: A Survey
- 快速去阴影--Fast Shadow Detection from a Single Image Using a Patched Convolutional Neural Network