【机器学习应用】机器学习之有监督学习

一、什么是有监督学习

有监督学习和无监督学习一字之差，关键在于是否有监督，也就是数据是否有标签。监督学习的主要目标是利用一组带标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或者回归的目的。

有监督学习主要分为两个方面：分类和回归。当输出是离散的，学习任务为分类任务，当输出为连续的，学习任务为回归任务。

二、分类学习

简单来说分类就是拿一组已经知道类别的数据进行学习，之后再利用学习得到的知识去对新的数据进行判断。我们拿来学习的数据就是输入，输入的数据是带标签的，标签标明了数据的所属类别。我们利用得到的新知识进行判断，判断的结果就是输出。

对输入数据进行进一步分类，可以分为训练集和测试集，训练集是用来训练模型的已经带有标注的数据，主要是用来建立模型发现规律。测试集也是带标签的数据，但是这部分是用来测试训练效果的，一般做法是将标注隐藏，将数据送入模型，比较结果和标签，从而评估模型的学习能力。一般来说大概会选出70%的数据作为训练集，剩余作为测试集，此外还有交叉验证法、自助法等用来评估分类模型。
有了测试，就对应有学习结果的评价标准，这里采用的标准有两种，一种称为精确率，如果以二分类为例，精确率表示的是预测为正的样本中有多少谁真正的正样本，也就是判断对了的比例，另一种称为召回率，指的是对于原来样本而言，样本中有多少正例被正确预测了，也就是原本数据中分类正确的比例。

分类使用的是skleran库里面的cluster模块，支持的分类函数包括：KNN、贝叶斯分类器、支持向量机、决策树和神经网络。网课主要是介绍了KNN、贝叶斯分类器和决策树，这三个算法在复试准备时也整理了一下，这里放一下当时写的笔记：

下面展开整理一下网课中的三个算法：
①K近邻分类器
KNN主要是通过计算待分类数据点与已有数据集中的所有数据点的距离，根据少数服从多数的原则，将这个数据点划分为出现次数最多的那个类别。换一个简单的说法就是看待测点周围的点，周围的点的类别决定待测点的类别。时刻记好课本上的那个例子，根据一堆身高数据判断一个人是高还是矮，做法是拿待测点去比较，选择与待测点最近的k个数据，根据最后这k个数据的分类情况判断最终这个人是高还是矮。

在sklearn库中，可以使用sklearn.KNeighboorsClassifier创建一个K邻近分类器，需要指定的参数有两个：n_neighbors（指定分类器中k的大小）和weighhts（选中的k个点对分类结果的影响的权重），此外还可以利用algorithm来设置计算临近点的方法，主要是用于数据量很大时优化计算距离的方法。

下面是一个简单的演示KNN的代码：

from sklearn.neighbors import KNeighborsClassifier
# 引入库文件X = [[0, 0], [1, 1], [2, 2], [3, 3]]
# 已有的点的数据
y = [0, 0, 1, 1]
# 点对应的分类结果，用于进行学习neigh = KNeighborsClassifier(n_neighbors=3)
# 调用KNN，设定k=3，即选择最近的三个数据
neigh.fit(X, y)
# 传入数据print(neigh.predict([[1.1, 1.1]]))
# 输入待测点并得到计算结果

数据并不一定是一维和二维的，更高维的也是可以的，计算距离会自动选择对应的计算方法。
在实际使用时，一般将训练数据分为特征X和标签y，使用fit函数训练，再使用predict来进行预测。K的取值也是很重要的，过大虽然可以减小估计的误差，但是也会让较远的样本对预测产生影响。过小会导致过拟合。一般倾向于使用较小的K值，并使用交叉验证法选择最优的K值。
②决策树
决策树是一种树形的分类器，通过顺序询问分类点的属性决定分类点最终的类别，在分类时按照决策树中的节点进行判断，就可以得到样本所属类别。

在sklearn库中主要是使用sklearrn.DecisionTreeClassifier创建决策树进行分类，主要参数有两个：criterion(选择属性的准则，即每次分裂选择哪一个属性进行分裂的方式，gini表示基尼系数，entropy表示信息增益)和max_features（结点进行分裂时从多少个特征中选择最优特征）。

③朴素贝叶斯
当年数据挖掘大作业做的就是贝叶斯分类器的垃圾邮件分类，这一块印象还是比较深的。朴素贝叶斯分类器主要是利用贝叶斯定理，对于给定数据，先基于特征的条件独立性假设，学习输入输出的联合概率分布，再基于此模型，对给定的输入，利用贝叶斯定理求出货后验概率最大的输出。核心就是概率论中贝叶斯定理的应用。

在sklearn库中，有下面三个朴素贝叶斯分类器：

下面是一个使用高斯朴素贝叶斯的实例代码：

import numpy as np
from sklearn.naive_bayes import GaussianNB
# 引入库文件X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
Y = np.array([1, 1, 1, 2, 2, 2])
# 构造训练数据clf = GaussianNB(priors=None)
# 使用默认参数，创建一个高斯朴素贝叶斯分类器
clf.fit(X, Y)
# 传入数据print(clf.predict([[-0.8,-1]]))
# 进行预测

朴素贝叶斯是典型的生成学习方法，利用训练数据学习联合概率分布从而求得后验概率分布，一般在小规模的数据上表现较好。

下面是网课里面的一个实例程序，程序是人体运动状态信息评级，给定的是人体传感器的数据，数据中包括心跳等数据，目的是根据已有的数据，学习分类，之后测试分类的结果。
由于网课没有给数据集，只给了代码，所以这里只能给源代码加注释。这个程序实际上难度不小，因为传感器数据存在缺失，所以需要用预处理来消去缺失值，之后创建对应的分类器，再传入数据，最后直接计算模型整体的准确率和召回率。其实本质上还是上面的简单示例，但是因为引入了数据的预处理，所以有点难读懂。

import pandas as pd
import numpy as npfrom sklearn.preprocessing import Imputer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
# 引入预处理和检验的库文件from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
# 引入三种分类器的库文件def load_datasets(feature_paths, label_paths):# 读取特征文件列表和标签文件列表中的内容，归并之后返回feature = np.ndarray(shape=(0, 41))label = np.ndarray(shape=(0, 1))for file in feature_paths:# 对于路径里面的每一个文件df = pd.read_table(file, delimiter=',', na_values='?', header=None)# 使用逗号分隔符读取特征数据，将问号替换标记为缺失值imp = Imputer(missing_values='NaN', strategy='mean', axis=0)# 使用Imputer函数，用平均值补全缺失值imp.fit(df)df = imp.transform(df)feature = np.concatenate((feature, df))# 将新读入的数据合并到特征集合中for file in label_paths:df = pd.read_table(file, header=None)label = np.concatenate((label, df))# 将新读入的数据合并到标签集合中label = np.ravel(label)return feature, labelif __name__ == '__main__':# 设置文件的路径，包括数据的路径和标签的路径featurePaths = ['A/A.feature', 'B/B.feature', 'C/C.feature', 'D/D.feature', 'E/E.feature']labelPaths = ['A/A.label', 'B/B.label', 'C/C.label', 'D/D.label', 'E/E.label']x_train, y_train = load_datasets(featurePaths[:4], labelPaths[:4])# 利用分片，将数据的前四个值作为训练集，传入函数中得到训练集合的特征和标签x_test, y_test = load_datasets(featurePaths[4:], labelPaths[4:])# 利用分片，将最后面的数据作为测试集，送入函数中得到测试集合的特征和标签x_train, x_, y_train, y_ = train_test_split(x_train, y_train, test_size=0.0)# 使用全量数据作为训练集，打乱训练数据print('Start training knn')knn = KNeighborsClassifier().fit(x_train, y_train)# 利用KNN进行分类print('Training done')answer_knn = knn.predict(x_test)# 传入测试数据print('Prediction done')print('Start training DT')dt = DecisionTreeClassifier().fit(x_train, y_train)# 使用决策树进行分类print('Training done')answer_dt = dt.predict(x_test)# 传入测试数据print('Prediction done')print('Start training Bayes')gnb = GaussianNB().fit(x_train, y_train)# 利用高斯贝叶斯分类器进行分类print('Training done')answer_gnb = gnb.predict(x_test)# 传入测试数据print('Prediction done')# 计算准确率和召回率print('\n\nThe classification report for knn:')print(classification_report(y_test, answer_knn))print('\n\nThe classification report for DT:')print(classification_report(y_test, answer_dt))print('\n\nThe classification report for Bayes:')print(classification_report(y_test, answer_gnb))

三、回归分析

回归分析指的是利用统计学的方法，了解两个或者多个变量之间是否相关、相关方向及强度。回归分析可以帮助人们了解在自变量变化时因变量的变化量。
看了一些回归的定义，个人的理解回归本质就是找一条线，我们一开始拿到的是一堆数据点，为了方便理解可以简化为二维的数据点，二维数据点在坐标系上分布，我们的任务就是找到一条线，让尽可能多的点符合这条线对应的方程（忘了这个是考研数学还是高考数学的知识），这条线如果是直线就是线性回归，如果是曲线就是多项式回归。有了这条线，我们就可以说二维数据对应的两个量之间存在函数关系，并且如果需要进行预测，我们完全可以根据这条线的方程，利用给出的自变量或者因变量求出另一个量。除此之外，如果是多个自变量和一个因变量之间的关联，那么完全可以使用回归的方法，量化因变量和其中一个自变量的相关性强度，从而找出相关性较差的自变量。

sklearn提供的回归函数主要在两个模块中：sklearn.linear_model和sklearn.prerocessing，其中前者封装的是一些线性函数，后者则是非线性回归函数。

网课里给出了几个例子，这里拿房价与房屋尺寸线性拟合的例子记录一下（房子是用来住的而不是用来炒的cue）。网课没有给出具体的数据，这里大体描述一下数据的格式，数据除了编号只有两列：房屋面积和交易价格，这样简单的数据可以直接在二维的坐标系里面表示出来。

在编写程序之前，可以简单的观察一下数据，如果从直观看都能看出来这些数据是不存在关联的，那就没有继续下去的必要了。
确定数据大概率存在关系之后，就可以进行代码的编写，实现也不是很难，首先建立工程并且导入sklearn包，加载数据并且建立回归方程，之后进行可视化方程，下面放上代码：

import matplotlib.pyplot as plt
# 用于数据的可视化
import numpy as np
from sklearn import linear_model
# 引入线性回归的库文件# 读取数据集
datasets_X = []
datasets_Y = []
fr = open('prices.txt','r')
# 打开文件
lines = fr.readlines()
# 读入全部文件
for line in lines:items = line.strip().split(',')datasets_X.append(int(items[0]))datasets_Y.append(int(items[1]))# 将数据读出并暂存length = len(datasets_X)
datasets_X = np.array(datasets_X).reshape([length,1])
# 转换为二维数组，符合拟合函数输入的要求
datasets_Y = np.array(datasets_Y)
# 转换为一维数组minX = min(datasets_X)
maxX = max(datasets_X)
X = np.arange(minX,maxX).reshape([-1,1])
# 方便后续画图linear = linear_model.LinearRegression()
# 加载线性回归
linear.fit(datasets_X, datasets_Y)
# 传入数据# 图像中显示
plt.scatter(datasets_X, datasets_Y, color = 'red')
# 画出所有点
plt.plot(X, linear.predict(X), color = 'blue')
# 画出回归方程对应的曲线
plt.xlabel('Area')
plt.ylabel('Price')
plt.show()

除了线性回归，还有一种回归叫做多项式回归。多项式回归是研究一个因变量和多个自变量间多项式的回归分析方法，自变量只有一个为一元多项式回归，多个自变量则为多元多项式回归：

引入多项式回归，主要还是因为线性回归得到的直线有可能和数据之间的拟合程度不那么好，也就是说一条直线有可能能反应数据之间存在关系，但是这个关系不是那么准确，有更加准确的，此时就用多项式回归的方式，多项式回归可以通过增加自变量高次项对实测点进行逼近，最终得到一条曲线。

还是拿上面的房价的例子，使用的方法仍然是线性回归，这里并不是多项式回归，sklearn中的多项式回归，实际上是先处理变量x，然后用线性模型学习多项式特征的参数，以达到多项式回归的目的，拿一个二元二次多项式举例，一共五个量：x1,x2,x1x2,x1的平方,x2的平方，这里采用的方法是先将x1和x2这两个量变成这五个量，再用线性回归把这五个量看出五个无关系的量进行处理。总而言之，先将原有的量直接拆成多项式系数，之后作为多元线性回归找出系数，就得到了多元多次回归方程。

回到原本的实例，其实两个代码改动就不是很大，只要对数据做小幅度的修改即可，变化的部分只有其中标出的部分：

import matplotlib.pyplot as plt
# 用于数据的可视化
import numpy as np
from sklearn import linear_model
# 引入线性回归的库文件
from sklearn.preprocessing import PolynomialFeatures# 读取数据集
datasets_X = []
datasets_Y = []
fr = open('prices.txt','r')
# 打开文件
lines = fr.readlines()
# 读入全部文件
for line in lines:items = line.strip().split(',')datasets_X.append(int(items[0]))datasets_Y.append(int(items[1]))# 将数据读出并暂存length = len(datasets_X)
datasets_X = np.array(datasets_X).reshape([length,1])
# 转换为二维数组，符合拟合函数输入的要求
datasets_Y = np.array(datasets_Y)
# 转换为一维数组minX = min(datasets_X)
maxX = max(datasets_X)
X = np.arange(minX,maxX).reshape([-1,1])
# 方便后续画图##########################################
poly_reg = PolynomialFeatures(degree = 2)
# 建立二次多项式特征
X_poly = poly_reg.fit_transform(datasets_X)
# 得到转换后的数据
lin_reg_2 = linear_model.LinearRegression()
# 加载线性回归
lin_reg_2.fit(X_poly, datasets_Y)
# 传入数据
########################################### 图像中显示
plt.scatter(datasets_X, datasets_Y, color = 'red')
# 画出所有点
plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue')
# 画出回归方程对应的曲线
plt.xlabel('Area')
plt.ylabel('Price')
plt.show()

四、小实验：验证模拟考数学成绩与总分之间的关系

前面由于没有给出数据，只能干看代码，索性拿出了以前做大数据实验课找家里人要的高三模拟考成绩，利用前面的知识，看一看两个成绩之间的关系。

需要修改的内容并不多，主要是读取数据的方式，成绩存放在Excel文件中，所以需要进行一定的修改。

使用线性回归的代理如下：

import matplotlib.pyplot as plt
# 用于数据的可视化
import numpy as np
from sklearn import linear_model
# 引入线性回归的库文件
import pandas as pd
# 读取数据集
from sklearn.preprocessing import PolynomialFeaturesdatasets_X = []
datasets_Y = []data = pd.read_excel('C:\\Users\\Binary\\Desktop\\score.xls')
# 打开文件length = len(data)
datasets_X = np.array(data['maths']).reshape([length, 1])
# 转换为二维数组，符合拟合函数输入的要求
datasets_Y = np.array(data['grade'])
# 转换为一维数组minX = min(datasets_X)
maxX = max(datasets_X)
X = np.arange(minX, maxX).reshape([-1, 1])
# 方便后续画图linear = linear_model.LinearRegression()
# 加载线性回归
linear.fit(datasets_X, datasets_Y)
# 传入数据# 图像中显示
plt.scatter(datasets_X, datasets_Y, color='red')
# 画出所有点
plt.plot(X, linear.predict(X), color='blue')# 画出回归方程对应的曲线
plt.xlabel('Maths scores')
plt.ylabel('Overall scores')
plt.show()

结果如图：

使用多项式回归代码如下：

import matplotlib.pyplot as plt
# 用于数据的可视化
import numpy as np
from sklearn import linear_model
# 引入线性回归的库文件
import pandas as pd
# 读取数据集
from sklearn.preprocessing import PolynomialFeaturesdatasets_X = []
datasets_Y = []data = pd.read_excel('C:\\Users\\Binary\\Desktop\\score.xls')
# 打开文件length = len(data)
datasets_X = np.array(data['maths']).reshape([length, 1])
# 转换为二维数组，符合拟合函数输入的要求
datasets_Y = np.array(data['grade'])
# 转换为一维数组minX = min(datasets_X)
maxX = max(datasets_X)
X = np.arange(minX, maxX).reshape([-1, 1])
# 方便后续画图poly_reg = PolynomialFeatures(degree = 2)
# 建立二次多项式特征
X_poly = poly_reg.fit_transform(datasets_X)
# 得到转换后的数据
lin_reg_2 = linear_model.LinearRegression()
# 加载线性回归
lin_reg_2.fit(X_poly, datasets_Y)
# 传入数据# 图像中显示
plt.scatter(datasets_X, datasets_Y, color='red')
# 画出所有点
#plt.plot(X, linear.predict(X), color='blue')
plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue')# 画出回归方程对应的曲线
plt.xlabel('Maths scores')
plt.ylabel('Overall scores')
plt.show()

结果如图：

两个结果差的不大，只是弯曲上稍微有点区别，这样确实可以证明数学成绩和总分之间存在关系，数学高分一般总成绩也不低。