![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5ZmliUG1xbWZ6YTl1OW5WdHZzZTFCYWg0amsxS3o5Q2FwdXJzMGNtdmQ2MlBhajc0Q0p1YThDdm1GaEFORXVPQXRiU0hpYUxvZ0VXUk5RLzY0MD93eF9mbXQ9cG5n?x-oss-
process=image/format,png)

写在前面

在写这篇文章之前，首先安利下jupyter，简直是神作，既可以用来写文章，又可以用来写代码，文章和代码并存，简直就是写代码/文章/教程的利器。

安装很简单： pip install jupyter

使用很简单: 当前面目录下 shift+右键 呼出 在此处打开命令窗口 ，输入 jupyter notebook 召唤神龙。

上面这段文字在jupyter中是这样的（markdown格式）：

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VVE4WWJlQ0Q3UDdJY3Rzb0g5VE5pYWR0dHo4MGs5NjJlYkRnYWZWcmljYWljaWJLSThmT1JXUlY1RmcvNjQw?x-oss-
process=image/format,png)

本文介绍

基于iris数据集进行数据分析。

iris数据集是常用的分类实验数据集，由Fisher，1936收集整理。iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。（来自百度百科）

数据预处理

首先使用padas相关的库进行数据读取，处理和预分析。

pandas的可视化user guide参见：

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

首先读取信息，并查看数据的基本信息：可以看到数据的字段，数量，数据类型和大小。

%matplotlib notebook import pandas as pd import matplotlib.pyplot as plt # 读取数据 iris = pd.read_csv('iris.data.csv')

iris.info()

    <class 'pandas.core.frame.DataFrame'>RangeIndex: 150 entries, 0 to 149Data columns (total 5 columns):Sepal.Length    150 non-null float64Sepal.Width     150 non-null float64Petal.Length    150 non-null float64Petal.Width     150 non-null float64type            150 non-null objectdtypes: float64(4), object(1)memory usage: 5.9+ KB
[/code]```code

# 前5个数据 iris.head()

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	type
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

# 数据描述 iris.describe()

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
count	150.000000	150.000000	150.000000
mean	5.843333	3.054000	3.758667
std	0.828066	0.433594	1.764420
min	4.300000	2.000000	1.000000
25%	5.100000	2.800000	1.600000
50%	5.800000	3.000000	4.350000
75%	6.400000	3.300000	5.100000
max	7.900000	4.400000	6.900000

箱线图描述了数据的分布情况，包括：上下界，上下四分位数和中位数，可以简单的查看数据的分布情况。
比如：上下四分位数相隔较远的话，一般可以很容易分为2类。
在《深入浅出统计分析》一书中，一个平均年龄17岁的游泳班，可能是父母带着婴儿的早教班，这种情况在箱线图上就能够清楚的反映出来。

# 箱线图 iris.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

    Sepal.Length       AxesSubplot(0.125,0.536818;0.352273x0.343182)Sepal.Width     AxesSubplot(0.547727,0.536818;0.352273x0.343182)Petal.Length          AxesSubplot(0.125,0.125;0.352273x0.343182)Petal.Width        AxesSubplot(0.547727,0.125;0.352273x0.343182)dtype: object
[/code]```code

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VXVwT1EzNWljZzBGc3VGUm5maWFqMjlJYlFZWW1zUk1aNWN5OUtCVGVpYTBQUGZ6c1U4RWljZzM5ZWcvNjQw?x-oss-
process=image/format,png)

#直方图，反馈的是数据的频度，一般常见的是高斯分布（正态分布）。 iris.hist()

    array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000001418E7B8>,<matplotlib.axes._subplots.AxesSubplot object at 0x00000000141C3208>],[<matplotlib.axes._subplots.AxesSubplot object at 0x00000000141EB470>,<matplotlib.axes._subplots.AxesSubplot object at 0x00000000142146D8>]],dtype=object)
[/code]```code

# plot直接展示数据的分布情况，kde核密度估计对比直方图来看 iris.plot()

iris.plot(kind = 'kde')

    <matplotlib.axes._subplots.AxesSubplot at 0x14395518>
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VU9DaWFpYXdzUDVmblJ3NkNhemlhODlJVlcwcnVxUlhWNXloYTJmbWxpY2lhRnAyQU1xc1ZiYmZEREtnLzY0MA?x-oss-
process=image/format,png)![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VUxRZmtwb0IwaWFGc1l3djVxd1hKZTBpYjk3cHZhRzU0Y1VHWm10bTdtWTQ1ZGNLOXI2Tnc4QldnLzY0MA?x-oss-
process=image/format,png)径向可视化是多维数据降维的可视化方法，不管是数据分析还是机器学习，降维是最基础的方法之一，通过降维，可以有效的减少复杂度。径向坐标可视化是基于弹簧张力最小化算法。它把数据集的特征映射成二维目标空间单位圆中的一个点，点的位置由系在点上的特征决定。把实例投入圆的中心，特征会朝圆中此实例位置（实例对应的归一化数值）“拉”实例。```code

ax = pd.plotting.radviz(iris, 'type', colormap = 'brg') # radviz的源码中Circle未设置edgecolor，画圆需要自己处理 ax.add_artist(plt.Circle((0,0), 1, color='r', fill = False))

    <matplotlib.patches.Circle at 0x1e68ba58>
[/code]```code

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VUFLcVlmbDBVZlk0Z3RHT2liNVg2d1g4bFhrSU5rR1VZQ2xHY0hIbU5GUHk5ZGo3NWN2MGRnaWFRLzY0MA?x-oss-
process=image/format,png)

# Andrews曲线将每个样本的属性值转化为傅里叶序列的系数来创建曲线。 # 通过将每一类曲线标成不同颜色可以可视化聚类数据， # 属于相同类别的样本的曲线通常更加接近并构成了更大的结构。 pd.plotting.andrews_curves(iris, 'type', colormap='brg')

    <matplotlib.axes._subplots.AxesSubplot at 0x1e68b978>
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VTlpYlQxMnFYZll6cEc1TEpKVTR0V0s0VjNDOFVKOFh6SmlhNnRmWDVxaWJYUVl4NjdNanhheWF6US82NDA?x-oss-
process=image/format,png)```code

# 平行坐标可以看到数据中的类别以及从视觉上估计其他的统计量。 # 使用平行坐标时，每个点用线段联接，每个垂直的线代表一个属性， # 一组联接的线段表示一个数据点。可能是一类的数据点会更加接近。 pd.plotting.parallel_coordinates(iris, 'type', colormap = 'brg')

    <matplotlib.axes._subplots.AxesSubplot at 0x1e931160>
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VTVBZmtwTktGaWNLaWFQNGxOcXNRNEkzbW9YQk11ZnBJdVF3MUVka1Y5MXJjRkMyWTJZaDJnNFlnLzY0MA?x-oss-
process=image/format,png)```code

# scatter matrix colors = {'Iris-setosa': 'blue', 'Iris-versicolor': 'green', 'Iris-virginica': 'red'}

pd.plotting.scatter_matrix(iris, color = [colors[type] for type in iris['type']])

    array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EB1B6A0>,<matplotlib.axes._subplots.AxesSubplot object at 0x0000000014349860>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001C67D550>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001434D198>],[<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EB3C6A0>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EB6BC18>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EB9C198>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EBC3748>],[<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EBC3780>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EE0C240>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EE357B8>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EE5CD30>],[<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EE8E2E8>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EEB4860>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EEDCDD8>,<matplotlib.axes._subplots.AxesSubplot object at 0x000000001EF0D390>]],dtype=object)
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VUdGOVpFRDZjcFNjZzhNSVlyR3pZSzlNUzNPbUZhQnpXTjRvWXV0djR5Z2dJeUcwa25YcTJGQS82NDA?x-oss-
process=image/format,png)```code

# 相关系数的热力图 import seaborn as sea

sea.heatmap(iris.corr(), annot=True, cmap='GnBu', linewidths=1, linecolor='k',square=True)

    <matplotlib.axes._subplots.AxesSubplot at 0x1f56ce10>
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VW91ZjFqTFdLQmhpY1drVUppYzJpYjVpYzh5VXEycHRMSkJCd0w5THdxUzM5ZmpmUTNYcWpiajQ0YkEvNjQw?x-oss-
process=image/format,png)```code

# pandas_profiling这个库可以对数据集进行初步预览，并进行报告，很不错，安装方式 pip install pandas_profiling # 运行略 # import pandas_profiling as pp # pp.ProfileReport(iris)

# 数据分类 import sklearn as sk from sklearn import preprocessing from sklearn import model_selection

# 预处理 X = iris[['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width']] y = iris['type'] encoder = preprocessing.LabelEncoder() y = encoder.fit_transform(y)

print(y)

    [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2]
[/code]```code

from sklearn import metrics def model_fit_show(model, model_name, X, y, test_size = 0.3, cluster = False):

` train_X, test_X, train_y, test_y = model_selection.train_test_split(X, y,
test_size = 0.3)
print(train_X.shape, test_X.shape, train_y.shape, test_y.shape)

model.fit(train_X, train_y)
prediction = model.predict(test_X) `

print(prediction) if not cluster:

` print(‘accuracy of {} is: {}’.format(model_name,
metrics.accuracy_score(prediction, test_y)))

pre = model.predict([[4.7, 3.2, 1.3, 0.2]])
print(pre)

L1 = X[‘Petal.Length’].values
L2 = X[‘Petal.Width’].values
cc = 50*[‘r’] + 50*[‘g’] + 50*[‘b’]
plt.scatter(L1, L2, c = cc, marker = ‘.’)

L1 = test_X[‘Petal.Length’].values
L2 = test_X[‘Petal.Width’].values
MAP = {0:‘r’, 1:‘g’, 2:‘b’, 3:‘y’, 4:‘k’, 5:‘w’, 6:‘m’, 7:‘c’}
cc = [MAP[_] for _ in prediction]
plt.scatter(L1, L2, c = cc, marker = ‘s’ if cluster else ‘x’)
plt.show() `

# logistic from sklearn import linear_model

model_fit_show(linear_model.LogisticRegression(), 'LogisticRegression', X, y)

    (105, 4) (45, 4) (105,) (45,)[1 2 2 0 2 0 2 1 0 1 2 1 0 0 0 2 2 1 2 0 2 0 1 2 2 1 0 1 2 1 2 1 0 2 0 1 01 0 0 1 2 2 0 0]accuracy of LogisticRegression is: 0.9111111111111111[0]
[/code]```code

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWVOWk9IZE40Vk5DQzJhbTV6V1NKMXFOYmliMjVPUXZoRm1HWmE2a1FUeXRIZWliaWJ0MjRkREhaUS82NDA?x-oss-
process=image/format,png)

# tree from sklearn import tree

model_fit_show(tree.DecisionTreeClassifier(), 'DecisionTreeClassifier', X, y)

    (105, 4) (45, 4) (105,) (45,)[2 0 1 0 0 0 1 2 0 0 1 0 2 0 2 1 1 0 2 0 2 0 0 1 1 2 0 2 0 1 2 1 1 1 1 2 11 2 1 1 2 2 2 0]accuracy of DecisionTreeClassifier is: 0.9111111111111111[0]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWhHckFaaWFwek1ncG1RQXRlNzAxbWxNakNrN1l1cUVVZDVNbGliaWNlalIzeVpvOWNmRUhOanFuZy82NDA?x-oss-
process=image/format,png)```code

#SVM from sklearn import svm

model_fit_show(svm.SVC(), 'svm.svc', X, y)

    (105, 4) (45, 4) (105,) (45,)[2 0 0 2 0 1 0 2 1 2 2 0 1 1 0 1 1 2 1 0 2 2 2 1 0 2 2 1 1 1 0 1 0 0 2 0 02 0 0 1 2 1 0 0]accuracy of svm.svc is: 0.9111111111111111[0]py:193: FutureWarning: The default value of gamma will change from 'auto' to 'scale' in version 0.22 to account better for unscaled features. Set gamma explicitly to 'auto' or 'scale' to avoid this warning."avoid this warning.", FutureWarning)
[/code]![](https://img-blog.csdnimg.cn/2020032419135615.gif)```code

# KNN from sklearn import neighbors

model_fit_show(neighbors.KNeighborsClassifier(), 'neighbors.KNeighborsClassifier', X, y)

    (105, 4) (45, 4) (105,) (45,)[1 2 2 2 0 0 0 1 2 2 1 2 1 1 1 2 0 2 0 0 1 1 0 0 1 0 2 2 0 0 2 2 1 1 0 1 10 1 1 2 1 1 0 0]accuracy of neighbors.KNeighborsClassifier is: 0.9555555555555556[0]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWJ0SVEzOGxpYmdsdms5emtEQkp6UmhES0VLaWNrcXhzbVdmd2ZUbzJYeXlpYU15eFRlUDc1dGliZlEvNjQw?x-oss-
process=image/format,png)```code

# Kmean from sklearn import cluster

model_fit_show(cluster.KMeans(n_clusters = 3), 'cluster.KMeans', X, y, cluster = True)

    (105, 4) (45, 4) (105,) (45,)[1 2 1 2 2 2 2 2 0 2 2 0 0 2 0 2 0 2 2 1 0 2 1 0 2 2 0 2 0 1 2 2 0 0 2 0 11 1 2 0 1 2 1 0][2]
[/code]![](https://img-blog.csdnimg.cn/2020032419135619.gif)```code

# naive bayes # https://scikit- learn.org/dev/modules/classes.html#module-sklearn.naive_bayes # 分别是GaussianNB，MultinomialNB和BernoulliNB。 # GaussianNB：先验为高斯分布的朴素贝叶斯，一般应用于连续值 # MultinomialNB：先验为多项式分布的朴素贝叶斯，离散多元值分类
# BernoulliNB：先验为伯努利分布的朴素贝叶斯，离散二值分类 # ComplementNB：对MultinomialNB的补充，适用于非平衡数据 from sklearn import naive_bayes

model_fit_show(naive_bayes.BernoulliNB(), 'naive_bayes.BernoulliNB', X, y) model_fit_show(naive_bayes.GaussianNB(), 'naive_bayes.GaussianNB', X, y) model_fit_show(naive_bayes.MultinomialNB(), 'naive_bayes.MultinomialNB', X, y) model_fit_show(naive_bayes.ComplementNB(), 'naive_bayes.ComplementNB', X, y)

    (105, 4) (45, 4) (105,) (45,)[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 22 2 2 2 2 2 2 2]accuracy of naive_bayes.BernoulliNB is: 0.24444444444444444[2]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWxrb3VqRktqMFJIeGVkd3g5OW8xUlRERExOQWZIWlZMWHA4TEt4ZjkybXowUHE1b1ozejNSdy82NDA?x-oss-
process=image/format,png)```code(105, 4) (45, 4) (105,) (45,)[1 0 1 0 0 1 0 0 0 0 0 0 1 1 1 2 1 0 1 1 2 0 0 2 2 1 2 0 0 1 0 2 0 1 0 2 12 2 2 0 2 0 2 2]accuracy of naive_bayes.GaussianNB is: 0.9333333333333333[0]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWZYZGpCMzNmeGdhd0dBWnhpY0JSS2ljOWVPaWJyWGFjWEFycHhpYWx0c3NEdVhSMGJXRmhpY1BpYzhGdy82NDA?x-oss-
process=image/format,png)```code(105, 4) (45, 4) (105,) (45,)[0 2 2 1 2 1 2 0 2 1 2 0 2 0 1 1 2 1 0 2 2 2 0 1 1 1 0 2 2 1 1 2 1 0 0 1 00 1 1 2 2 1 2 1]accuracy of naive_bayes.MultinomialNB is: 0.9555555555555556[0]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VWZuaWJXbjBvc3hnSGd6bXVFOXJLVXpmQlJQM3MxaEtwVDBHUk5DbldVN1oyQWlidHhWeUMzb3NBLzY0MA?x-oss-
process=image/format,png)```code(105, 4) (45, 4) (105,) (45,)[2 2 2 2 2 2 2 2 2 2 2 0 2 2 2 0 2 2 2 2 0 0 0 2 2 2 0 0 2 2 2 0 2 2 2 0 02 0 2 2 2 2 0 2]accuracy of naive_bayes.ComplementNB is: 0.6[0]
[/code]![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X3BuZy9hNENBY3JTUWw5Y3A1NVlJenNxaDhueExCVUFIcjN6VUxpYThlWmMxeXQ2UllGTkZ1d1hlNUlyaWNjbDJDSGxpYVFpYmJVenVyVDNOWlBEczI2QkhFRnBvSmcvNjQw?x-oss-
process=image/format,png)```code

（↓ - 有些内容只在小龙家发，可关注同名“趣Python”号，谢谢 - ↓）

![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2dpZi9hNENBY3JTUWw5ZmliUG1xbWZ6YTl1OW5WdHZzZTFCYWgzUXdtb1g0elNmZUg5V2lhWldVVk52SXNXc1BpYjVCNU0wSGliV05WZk1sSEI5ZEtYUHJtUjdia0EvNjQwP3d4X2ZtdD1naWY?x-oss-
process=image/format,png)

![](https://img-blog.csdnimg.cn/20200323080614385.jpg?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hCWWFBbm4=,size_16,color_FFFFFF,t_70)

iris鸢尾花数据集最全数据分析写在前面本文介绍数据预处理相关推荐

ML之DT：利用DT(DTC)实现对iris(鸢尾花)数据集进行分类并可视化DT结构
ML之DT:利用DT(DTC)实现对iris(鸢尾花)数据集进行分类并可视化DT结构目录输出结果实现代码输出结果实现代码 #1. iris = load_iris() dir(iris)ir ...
数据挖掘算法和实践（二）：决策树（iris鸢尾花数据集）
决策树是直观运用概率分析的树形分类器,是很常用的分类方法,属于监管学习,决策树分类过程是从根节点开始,根据特征属性值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果. 比如说买瓜的时候 ...
ML之mlxtend：基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化)
ML之mlxtend:基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化) 目录相关文章 ML之mlxten ...
Iris鸢尾花数据集可视化、线性回归、决策树分析、KMeans聚类分析
在进行可视化及聚类分析前,我们需要为IDLE安装sklearn库,scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提 ...
matlab鸢尾花数据线性分析,Iris鸢尾花数据集可视化、线性回归、决策树分析、KMeans聚类分析...
数据集可视化采用Python的Sklearn机器学习库中自带的数据集--鸢尾花数据集.简单分析数据集之间特征的关系图,根据花瓣长度.花瓣宽度.花萼长度.花萼宽度四个特征进行绘图 Iris plant ...
Iris鸢尾花数据集的逻辑回归分析
逻辑回归分析(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,是一种广义的线性回归分析模型. 逻辑回归的原理是在线性回归的基础上加了一个Sigmoid函 ...
matlab RBF神经网络对iris鸢尾花数据集进行分类
1.内容简介略 601-可以交流.咨询.答疑 2.内容说明 iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类(setosa,versicolor, virginica),每类5 ...
机器学习基于IRIS鸢尾花数据集进行聚类分析
一:k-means.混合高斯聚类的原理 k-means算法的基本思想为:在数据集中根据一定策略选择k个点作为每个簇的初始中心,然后观察剩余的数据,将数据划分到距离这k个点最近的簇中,也就是说将数据划分 ...
IRIS鸢尾花数据集(多种格式)-下载地址
最近看的例子有用到IRIS数据集, 个人找了半天,才找到合适格式的数据集. 因此,将我找到的数据集分享给大家,以免大家像我一样找很久. 我这里有3种格式的数据集,分别是: 1. iris.csv 2. ...

iris鸢尾花数据集最全数据分析写在前面本文介绍数据预处理

写在前面

本文介绍

数据预处理

iris鸢尾花数据集最全数据分析写在前面本文介绍数据预处理相关推荐

最新文章

热门文章

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	type
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	type
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

Sepal.Length	Sepal.Width	Petal.Length	Petal.Width	type
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2