本节所使用的尾鸢花数据集是Python中自带的数据集,常用于机器学习分类算法模型,其中sepal_length_cm、sepal_width_cm、petal_length_cm、petal_width_cm、class字段代表的含义分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、尾鸢花的类别。

一、数据来源

from pandas import Series,DataFrame

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import matplotlib as mpl

import seaborn as sns #导入seaborn绘图库

%matplotlib inline

iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-data.csv'))

iris_data.head()

二、问题探索

通过数据可视化和分析,按照尾鸢花的特征分出尾鸢花的类别。

三、数据清洗

iris_data.shape

(150, 5)

共有150条数据,5列。

iris_data.describe()

由描述统计可以看出,数据没有缺失值。

iris_data['class'].unique() #查看唯一值

array(['Iris-setosa', 'Iris-setossa', 'Iris-versicolor', 'versicolor','Iris-virginica'], dtype=object)

iris_data.ix[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'

iris_data.ix[iris_data['class'] == 'Iris-setossa', 'class'] = 'Iris-setosa'

iris_data['class'].unique() #查看唯一值

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

sns.pairplot(iris_data, hue='class')

利用seaborn绘制散点图矩阵,通过第一列可看出,有几个Iris-versicolor样本中的sepal_length_cm值偏移了大部分的点,通过第二行可看出,一个Iris-setosa样本的sepal_width_cm值偏离了大部分点。

iris_data.ix[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()

对通过Iris-setosa的花萼宽度绘制直方图也能观测出异常。

过滤小于2.5cm的数据后再做直方图。

iris_data = iris_data.loc[(iris_data['class'] != 'Iris-setosa') | (iris_data['sepal_width_cm'] >= 2.5)]

iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()

通过索引选取Iris-versicolor样本中sepal_length值小于0.1的数据,选取异常数据。

iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0)]

iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &(iris_data['sepal_length_cm'] < 1.0),'sepal_length_cm'] *= 100.0

发现花瓣宽度有5条缺失值,由于3种分类数据样本均衡,直接将缺失值删除处理。

iris_data.isnull().sum()

发现花瓣宽度有5条缺失值。

iris_data[iris_data['petal_width_cm'].isnull()] #处理缺失值

iris_data.dropna(inplace=True)

iris_data.to_csv('D:\python数据分析\数据\iris-clean-data.csv', index=False) #保存清洗后的数据

iris_data = pd.read_csv(open('D:\python数据分析\数据\iris-clean-data.csv'))

iris_data.head()

iris_data.shape

(144, 5)

数据清洗后,有144条数据,5列。

四、数据探索

sns.pairplot(iris_data, hue='class')

绘制散点矩阵图可以发现,大部分情况下数据接近正态分布,而且Iris-setosa与其他两种花是线性可分的,其他两种花型可能需要非线性算法进行分类。

iris_data.boxplot(column='petal_length_cm', by='class',grid=False,figsize=(6,6))

通过petal_length_cm(花瓣长度)可以轻松区分Iris-setosa与其他两种花。

python花数_Python数据分析实战,尾鸢花数据集数据分析相关推荐

  1. python数据分析实战之宝可梦数据分析

    学习介绍: 经过python基础的学习,利用一个数据分析实战,实现数据分析. 学习内容目录: 1. 数据导入 2.处理 3. 排序 4. 相关性分析 5.筛选 学习内容: 一.数据集下载 !wget ...

  2. 万字长文,Python数据分析实战,使用Pandas进行数据分析

    文章目录 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...

  3. Excel数据分析实战之开宗明义: Excel与数据分析实战

      大家好,我是爱编程的喵喵.双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中.从事机器学习以及相关的前后端开发工作.曾在阿里云.科大讯飞.CCF等比赛获得多次Top名次.喜 ...

  4. 【每周一本书】之《游戏数据分析实战》:盛大游戏数据分析专家亲历16年的实战经验分享

    [数据猿导读]<游戏数据分析实战>贯穿整个游戏生命周期,提供了丰富的数据分析案例,从预热到封测,再到公测, 均为作者在实际工作中经历的真实案例.案例分析包含数据来源.分析方法.分析过程.分 ...

  5. 简笔彩色圣诞树的python代码_Python绘图,圣诞树,花,爱心 | Turtle篇-Go语言中文社区...

    1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle. ...

  6. 基于python的大数据分析实战学习笔记-pandas(数据分析包)

    pandas是什么呢?可能大家会看到各种解释,其实ta就是一个数据分析包啊.....没啥可解释的 pandas中常见的数据结构有三种,Series(一维数组,也叫序列),DataFrame(二维表格, ...

  7. python花数_python交换数字a b怎么用python画花朵

    怎么用python画花朵?下面给大家讲解一下具体步骤: 第一步,打开菜单栏,输入idle,打开shell. 第二步,新建一个文件,并命名. 第三步,导入turtle模块,创建一个新窗口用于绘图,再创建 ...

  8. python通信测试_Python接口测试实战1(上)- 接口测试理论

    本节内容 接口及接口测试 网络基础知识:IP,域名, DNS及端口 网络基础知识:OSI七层模型及TCP协议 HTTP协议 接口及接口测试 接口的概念 接口又称API(Application Prog ...

  9. python 随机数_python项目实战:实现蒙特卡罗方法,求物体阴影面积

    前言 蒙特卡罗方法是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法.与它对应的是确定性算法.蒙特·卡罗方法在金融工程学,宏观经济学,计算物理学(如粒子输运计算.量子热力学计算.空气动力学计 ...

最新文章

  1. Delegate和Command Pattern
  2. linux命令netstat
  3. cypress测试框架与selenium_selenium自动化测试框架之PO设计模式
  4. VC在windows下编写用于串行通讯的程序
  5. [USACO09HOL]假期绘画Holiday Painting
  6. MFC DLL 导出函数的定义方式
  7. “找不到网络路径”的检测方法及解决方案
  8. request 和 session 获取方法
  9. Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
  10. 纯HTML个人清新网站源码
  11. 大学生静态HTML鲜花网页设计作品 DIV布局网上鲜花介绍网页模板代码 DW花店网站制作成品 web网页制作与实现
  12. word高级技能之自动生成图目录/表目录
  13. 总体参数的假设检验 R
  14. 遇见逆水寒服务器维护时间,《遇见逆水寒》7月23日更新公告
  15. 微信公众号文章排版中,去掉图片和图片之间的空白
  16. Word——图表如何交叉引用-插入题注-交叉引用
  17. excel行列互换_EXCEL图表中的堆积柱形图如何行列互换
  18. 日本NHK推出人工智能主播,可模拟真人主播声音播报新闻
  19. 51单片机串口通信原理
  20. 新辰:浅谈那些被挑毛病的90后创业者 到底谁错了?

热门文章

  1. 深度学习时间序列预测:GRU算法构建多变量时间序列预测模型+代码实战
  2. 主题模型简介(Topic Models)
  3. ElasticSearch+聚合+Aggregation+示例
  4. 数据不平衡(class_weight、评估方法、上采样、下采样)、详解及实战
  5. 用php计算自由落体,js模仿物理中的自由落体现象
  6. 合肥学院计算机论文,《合肥学院毕业论文模版》.doc
  7. mysql tomcat 自动重连_基于tomcat+mysql的c/s模式下的系统自动更新
  8. python播放视频
  9. 人脸对齐--Face Alignment In-the-Wild: A Survey
  10. 快速去阴影--Fast Shadow Detection from a Single Image Using a Patched Convolutional Neural Network