机器学习Scikit-Learn基本操作实战

机器学习现在成为了计算机领域的显学，但是大部头的专业书籍往往让人望而生畏，对于更多的人来说，需要的是对机器学习模型的应用，而不是从无到有建立模型。Scikit-Learn库刚好满足了大众的需求，这里以经典的“鸢尾花数据”演示贝叶斯模型的应用。

入门

pandas基础

由于需要使用pandas库进行数据文件的读写，这里先介绍需要用到的pandas语句：

#读取CSV文件到对象
Obj=pandas.read_csv('文件名')
#保存对象到CSV
Obj.to_csv('文件名')
#获取一列
Obj['列名']
#添加列(会改变对象)
Obj['新列名']=数组
#删除列(不会改变对象，会返回一个新对象)
newObj=Obj.drop(columns='species')

数据准备

首先要下载数据，在网址https://github.com/mwaskom/seaborn-data找到iris.csv并下载，当然在这个页面也可以找到其他类似的数据集进行训练。

第二步是将数据分成训练数据和测试数据，打乱行顺序，取表头和100行保存为训练集.csv，取表头和余下的50行保存为测试集.csv。

引入库和模型

import pandas
from sklearn.naive_bayes import GaussianNB#引入模型

读取训练集，并分离数据和结果

train=pandas.read_csv('训练集.csv')
y=train['species']#结果数组
X=train.drop(columns='species')#参数矩阵
print(train,y,X)

拟合模型

model=GaussianNB()#实例化模型
model.fit(X,y)#拟合模型

验证测试集

test=pandas.read_csv('测试集.csv')
Xtest=test.drop(columns='species')ytest=model.predict(Xtest)#验证模型
test['result']=ytest
test.to_csv('分类结果.csv')

模型保存

训练后模型的保存和加载需要使用joblib工具

import joblib # 保存模型参数的工具# 保存模型
joblib.dump(model,'iris.model')
# 加载模型
model=joblib.load('iris.model')

完整代码

import pandas
from sklearn.naive_bayes import GaussianNB#引入模型train=pandas.read_csv('训练集.csv')
y=train['species']#结果数组
X=train.drop(columns='species')#参数矩阵
print(train,y,X)model=GaussianNB()#实例化模型
model.fit(X,y)#拟合模型test=pandas.read_csv('测试集.csv')
Xtest=test.drop(columns='species')ytest=model.predict(Xtest)
test['result']=ytest
test.to_csv('分类结果.csv')

手动打开分类结果.csv即可查看分类结果

上学习了贝叶斯方法的使用，下面再来应用另一种经典方法：K-聚类算法，与上一次的代码相比，需要改动的代码仅有两行，其中模型的参数代表聚类中心数量，亦即待区分的类别数量。

#引入模型
from sklearn.neighbors import KNeighborsClassifier
#实例化模型
model=KNeighborsClassifier(n_neighbors=3)

下面是完整代码

import pandas
from sklearn.neighbors import KNeighborsClassifiermodel=KNeighborsClassifier(n_neighbors=3)train=pandas.read_csv('训练集.csv')
y=train['species']#结果数组
X=train.drop(columns='species')#参数矩阵model.fit(X,y)test=pandas.read_csv('测试集.csv')
Xtest=test.drop(columns='species')ytest=model.predict(Xtest)
test['result2']=ytest
test.to_csv('分类结果2.csv')

对比两次实验结果发现，K-临近算法分类结果有1个错误，而朴素贝叶斯方法有2个错误。

学习了这些基本操作之后，可以举一反三，选用其他机器学习算法。

无监督分类

无监督分类的方法通常包含下面几个内置函数方法

方法	说明
fit(X[, y])	使OrdinalEncoder拟合X。
fit_transform(X[, y])	拟合数据，然后对其进行转换。
get_params([deep])	获取此估计量的参数。
inverse_transform(X)	将数据转换回原始表示形式。
set_params(**params)	设置此估算器的参数。
transform(X)	将X转换为序数代码。

层次聚类

import pandas as pd
import numpy as npfrom sklearn.cluster import AgglomerativeClusteringdata=pd.read_csv('data.csv',sep='\t',index_col=0)ac=AgglomerativeClustering(n_clusters=5,affinity='euclidean',linkage='average')
labels = ac.fit_predict(data)data['lable']=labelsprint ('cluster labels:%s'%labels)

数据预处理

主成分分析

from sklearn.decomposition import PCA
pca=PCA(n_components=3)
newdata=pca.fit_transform(data)

数据归一化

#sklearn.preprocessing.normalize(X, norm='l2', *, axis=1, copy=True, return_norm=False)
from sklearn.preprocessing import normalize
newdata2=normalize(data,axis=0)

结果可视化

散点图

可以使用数据的参数作为图形坐标，用颜色或符号表示分类结果

import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(12, 12))
#plt.scatter(X.sepal_length,X.sepal_width,c=y_pred)
sns.scatterplot(X.sepal_length,X.sepal_width,hue=y_pred,style=y_pred)
plt.show()