1. 鸢尾花Iris数据集介绍

Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集，可以作为判别分析（discriminant analysis）的样本。
该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本，每个样本还有4个特征参数（分别是萼片的长宽和花瓣的长宽，以厘米为单位） sepal length (cm), sepal width (cm), petal length (cm), petal width (cm) ，Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。
基于Fisher的线性判别模型，该数据集成为了机器学习中各种分类技术的典型实验案例

2. Sklearn代码获取Iris

from sklearn import datasets
iris = datasets.load_iris()
irisFeatures = iris["data"]
irisFeaturesName = iris["feature_names"]
irisLabels = iris["target"]print('Iris feature name:',irisFeaturesName)
print('Iris data size :',irisFeatures.shape)
print(irisFeatures[:10])
print('Iris label size :', irisLabels.shape)
print(irisLabels[:10])

Iris feature name: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Iris data size : (150, 4)
[[5.1 3.5 1.4 0.2][4.9 3.  1.4 0.2][4.7 3.2 1.3 0.2][4.6 3.1 1.5 0.2][5.  3.6 1.4 0.2][5.4 3.9 1.7 0.4][4.6 3.4 1.4 0.3][5.  3.4 1.5 0.2][4.4 2.9 1.4 0.2][4.9 3.1 1.5 0.1]]
Iris label size : (150,)
[0 0 0 0 0 0 0 0 0 0]

2. 描述性统计

import pandas as pd
print(irisFeaturesName)
dataset = pd.DataFrame(irisFeatures, columns=['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'])
print(dataset.describe())

(sepal length)花萼长度最小值4.30, 最大值7.90, 均值5.84, 中位数5.80, 右偏
(sepal width)花萼宽度最小值2.00, 最大值4.40, 均值3.05, 中位数3.00, 右偏
(petal length)花瓣长度最小值1.00, 最大值6.90, 均值3.76, 中位数4.35, 左偏
(petal width)花瓣宽度最小值0.10, 最大值2.50, 均值1.20, 中位数1.30, 左偏
按中位数来度量: 花萼长度 > 花瓣长度 > 花萼宽度 > 花瓣宽度

       sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
count         150.000000        150.000000         150.000000        150.000000
mean            5.843333          3.057333           3.758000          1.199333
std             0.828066          0.435866           1.765298          0.762238
min             4.300000          2.000000           1.000000          0.100000
25%             5.100000          2.800000           1.600000          0.300000
50%             5.800000          3.000000           4.350000          1.300000
75%             6.400000          3.300000           5.100000          1.800000
max             7.900000          4.400000           6.900000          2.500000

3. 箱线图

boxplot所绘制的就是箱线图, 它能显示出一组数据的最大值, 最小值, 四分位数以及异常点.
对于异常点的定义: 区间[Q1-1.5IQR, Q3+1.5IQR]之外的点, 其中Q1下四分位数(25%), Q3上四分位数(75%), IQR=Q3-Q1

url = r"C:\Users\harry\PycharmProjects\helloworld\ML\DataSets_test\data\iris.csv"
names = ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)', 'class']
dataset = pd.read_csv(url, names=names)
print(dataset.describe())
dataset.plot.box()
plt.show()

4. 数据分布情况

import matplotlib.pyplot as plt
s = dataset.hist()  # 数据直方图histograms
print(s)
plt.show()

[机器学习-sklearn]鸢尾花Iris数据集相关推荐

sklearn基础篇（三）-- 鸢尾花(iris)数据集分析和分类
后面对Sklearn的学习主要以<Python机器学习基础教程>和<机器学习实战基于scikit-learn和tensorflow>,两本互为补充进行学习,下面是开篇的学习内容 ...
ML之SVM：基于SVM(sklearn+subplot)的鸢尾花iris数据集的前两个特征(线性不可分的两个样本)，判定鸢尾花是哪一种类型
ML之SVM:基于SVM(sklearn+subplot)的鸢尾花iris数据集的前两个特征(线性不可分的两个样本),判定鸢尾花是哪一种类型目录输出结果实现代码输出结果 (1).黄色的点为支持 ...
【统计学习方法】线性可分支持向量机对鸢尾花(iris)数据集进行二分类
本文摘要 · 理论来源:[统计学习方法]第七章 SVM · 技术支持:pandas(读csv).numpy.sklearn.svm.svm思想.matplotlib.pyplot(绘图) · 代码目的 ...
【统计学习方法】朴素贝叶斯对鸢尾花(iris)数据集进行训练预测
本文摘要 · 理论来源:[统计学习方法]第三四章朴素贝叶斯 · 技术支持:pandas(读csv).numpy.sklearn.naive_bayes.GaussianNB(高斯朴素贝叶斯模型).s ...
【统计学习方法】K近邻对鸢尾花(iris)数据集进行多分类
本文摘要 · 理论来源:[统计学习方法]第三章 K近邻 · 技术支持:pandas(读csv).collections.Counter(统计).numpy.sklearn.neighbors.KNei ...
【统计学习方法】感知机对鸢尾花(iris)数据集进行二分类
本文摘要 · 理论来源:[统计学习方法]第二章感知机 · 技术支持:pandas(读csv).matplotlib(画图).numpy.sklearn.linear_model.Perceptron ...
支持向量机鸢尾花Iris数据集的SVM线性分类练习
支持向量机&鸢尾花Iris数据集的SVM线性分类练习摘要一.SVM基础 1.三种支持向量机 2.非线性支持向量机二.鸢尾花实例 1.认识鸢尾花 2.鸢尾花实例演示 3.使用多项式特征和核 ...
机器学习：鸢尾花(Iris)分类
机器学习:鸢尾花(Iris)分类背景她还有一些鸢尾花的测量数据,这些花之前已经被植物学专家鉴定为属于 setosa.versicolor 或virginica 三个品种之一.对于这些测量数据,她可 ...
MAT之ELM：ELM实现鸢尾花(iris数据集)种类测试集预测识别正确率(better)结果对比
MAT之ELM:ELM实现鸢尾花(iris数据集)种类测试集预测识别正确率(better)结果对比目录输出结果实现代码输出结果实现代码 load iris_data.mat P_train ...

[机器学习-sklearn]鸢尾花Iris数据集

鸢尾花数据集