鸢尾花数据集

  • 1. 鸢尾花Iris数据集介绍
  • 2. Sklearn代码获取Iris
  • 2. 描述性统计
  • 3. 箱线图
  • 4. 数据分布情况

1. 鸢尾花Iris数据集介绍

Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。
该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,
每个样本还有4个特征参数(分别是萼片的长宽和花瓣的长宽,以厘米为单位)
sepal length (cm), sepal width (cm), petal length (cm), petal width (cm)
,Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。
基于Fisher的线性判别模型,该数据集成为了机器学习中各种分类技术的典型实验案例

2. Sklearn代码获取Iris

from sklearn import datasets
iris = datasets.load_iris()
irisFeatures = iris["data"]
irisFeaturesName = iris["feature_names"]
irisLabels = iris["target"]print('Iris feature name:',irisFeaturesName)
print('Iris data size :',irisFeatures.shape)
print(irisFeatures[:10])
print('Iris label size :', irisLabels.shape)
print(irisLabels[:10])
Iris feature name: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Iris data size : (150, 4)
[[5.1 3.5 1.4 0.2][4.9 3.  1.4 0.2][4.7 3.2 1.3 0.2][4.6 3.1 1.5 0.2][5.  3.6 1.4 0.2][5.4 3.9 1.7 0.4][4.6 3.4 1.4 0.3][5.  3.4 1.5 0.2][4.4 2.9 1.4 0.2][4.9 3.1 1.5 0.1]]
Iris label size : (150,)
[0 0 0 0 0 0 0 0 0 0]

2. 描述性统计

import pandas as pd
print(irisFeaturesName)
dataset = pd.DataFrame(irisFeatures, columns=['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'])
print(dataset.describe())

(sepal length)花萼长度最小值4.30, 最大值7.90, 均值5.84, 中位数5.80, 右偏
(sepal width)花萼宽度最小值2.00, 最大值4.40, 均值3.05, 中位数3.00, 右偏
(petal length)花瓣长度最小值1.00, 最大值6.90, 均值3.76, 中位数4.35, 左偏
(petal width)花瓣宽度最小值0.10, 最大值2.50, 均值1.20, 中位数1.30, 左偏
按中位数来度量: 花萼长度 > 花瓣长度 > 花萼宽度 > 花瓣宽度

       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
count         150.000000        150.000000         150.000000        150.000000
mean            5.843333          3.057333           3.758000          1.199333
std             0.828066          0.435866           1.765298          0.762238
min             4.300000          2.000000           1.000000          0.100000
25%             5.100000          2.800000           1.600000          0.300000
50%             5.800000          3.000000           4.350000          1.300000
75%             6.400000          3.300000           5.100000          1.800000
max             7.900000          4.400000           6.900000          2.500000

3. 箱线图

boxplot所绘制的就是箱线图, 它能显示出一组数据的最大值, 最小值, 四分位数以及异常点.
对于异常点的定义: 区间[Q1-1.5IQR, Q3+1.5IQR]之外的点, 其中Q1下四分位数(25%), Q3上四分位数(75%), IQR=Q3-Q1

url = r"C:\Users\harry\PycharmProjects\helloworld\ML\DataSets_test\data\iris.csv"
names = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)', 'class']
dataset = pd.read_csv(url, names=names)
print(dataset.describe())
dataset.plot.box()
plt.show()

4. 数据分布情况

import matplotlib.pyplot as plt
s = dataset.hist()  # 数据直方图histograms
print(s)
plt.show()

[机器学习-sklearn]鸢尾花Iris数据集相关推荐

  1. sklearn基础篇(三)-- 鸢尾花(iris)数据集分析和分类

    后面对Sklearn的学习主要以<Python机器学习基础教程>和<机器学习实战基于scikit-learn和tensorflow>,两本互为补充进行学习,下面是开篇的学习内容 ...

  2. ML之SVM:基于SVM(sklearn+subplot)的鸢尾花iris数据集的前两个特征(线性不可分的两个样本),判定鸢尾花是哪一种类型

    ML之SVM:基于SVM(sklearn+subplot)的鸢尾花iris数据集的前两个特征(线性不可分的两个样本),判定鸢尾花是哪一种类型 目录 输出结果 实现代码 输出结果 (1).黄色的点为支持 ...

  3. 【统计学习方法】线性可分支持向量机对鸢尾花(iris)数据集进行二分类

    本文摘要 · 理论来源:[统计学习方法]第七章 SVM · 技术支持:pandas(读csv).numpy.sklearn.svm.svm思想.matplotlib.pyplot(绘图) · 代码目的 ...

  4. 【统计学习方法】朴素贝叶斯对鸢尾花(iris)数据集进行训练预测

    本文摘要 · 理论来源:[统计学习方法]第三四章 朴素贝叶斯 · 技术支持:pandas(读csv).numpy.sklearn.naive_bayes.GaussianNB(高斯朴素贝叶斯模型).s ...

  5. 【统计学习方法】K近邻对鸢尾花(iris)数据集进行多分类

    本文摘要 · 理论来源:[统计学习方法]第三章 K近邻 · 技术支持:pandas(读csv).collections.Counter(统计).numpy.sklearn.neighbors.KNei ...

  6. 【统计学习方法】感知机对鸢尾花(iris)数据集进行二分类

    本文摘要 · 理论来源:[统计学习方法]第二章 感知机 · 技术支持:pandas(读csv).matplotlib(画图).numpy.sklearn.linear_model.Perceptron ...

  7. 支持向量机鸢尾花Iris数据集的SVM线性分类练习

    支持向量机&鸢尾花Iris数据集的SVM线性分类练习 摘要 一.SVM基础 1.三种支持向量机 2.非线性支持向量机 二.鸢尾花实例 1.认识鸢尾花 2.鸢尾花实例演示 3.使用多项式特征和核 ...

  8. 机器学习:鸢尾花(Iris)分类

    机器学习:鸢尾花(Iris)分类 背景 她还有一些鸢尾花的测量数据,这些花之前已经被植物学专家鉴定为属于 setosa.versicolor 或virginica 三个品种之一.对于这些测量数据,她可 ...

  9. MAT之ELM:ELM实现鸢尾花(iris数据集)种类测试集预测识别正确率(better)结果对比

    MAT之ELM:ELM实现鸢尾花(iris数据集)种类测试集预测识别正确率(better)结果对比 目录 输出结果 实现代码 输出结果 实现代码 load iris_data.mat P_train ...

最新文章

  1. 设计模式-合成复用原则
  2. 数据导入HBase最常用的三种方式及实践分析
  3. NYOJ 236 心急的C小加
  4. 一篇好文之Android数据库 GreenDao的完全解析
  5. Maven的个性化定制
  6. tomcat+nginx+redis实现均衡负载、session共享(一)
  7. 解决 : Shell 脚本 $‘\r‘: command not found 问题
  8. go标准库:time
  9. easyUI combobox启用禁用功能写法
  10. 系统学习深度学习(三十九)--基于模型的强化学习与Dyna算法框架
  11. 呼吸灯 裸机 S3C2416
  12. Android开发入门教程--3.Activity入门指南
  13. 电脑后台,电脑后台程序太多如何清理 - 卡饭网
  14. win7系统修复工具_win7系统如何修复
  15. 学会这10种定时任务,我有点飘了
  16. python合并word表格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...
  17. 1104. 天长地久 (20 分)
  18. 第五次作业:项目分类
  19. 在win10查看本机linux的文件,Windows 10变身开发者利器:内置Linux内核,轻松查看Linux子系统文件...
  20. 安全基础--18--嵌入式基础之系统硬件

热门文章

  1. Codeforces Round #228 (Div. 2)
  2. POJ-2533 Longest Ordered Subsequence
  3. WinCE5.0下直接写屏操作与函数 CreateDIBSection() 的使用(转)
  4. 一键清除 打印机内无法清除作业
  5. 动物和计算机-自组织是悬空的钢丝
  6. [转载]带着我的认证上路:五步让你成为网络专家
  7. Java中的注解 Annotations
  8. How to Install and Configure OpenSSH Server In Linux
  9. “Remote server returned error: (405) method not allowed.”的解决方案
  10. C#算法设计查找篇之05-二叉树查找