交叉学习验证西瓜书_机器学习：数据划分与交叉验证

函数1：train_test_split

from sklearn.model_selection import train_test_split # 数据划分所需的函数X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size=0.4, random_state=0)
# 划分训练集和测试集.test_size为测试集所占的比例
print('训练集大小：',X_train.shape,y_train.shape)  # 训练集样本大小
print('测试集大小：',X_test.shape,y_test.shape)  # 测试集样本大小

train_test_split 函数用于随机划分训练集和测试集的函数，其中参数：

train_data：样本特征集
train_target：样本的标签集
test_size：样本占比，测试集占数据集的比重，如果是整数的话就是样本的数量
random_state：是随机数的种子。在同一份数据集上，相同的种子产生相同的结果，不同的种子产生不同的划分结果
x_train,y_train:构成了训练集
x_test,y_test：构成了测试集

此外，该函数还存在一个参数stratify：是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(test_size=0.25, stratify = y_all), 那么split之后数据如下：
training: 75个数据，其中60个属于A类，15个属于B类。
testing: 25个数据，其中20个属于A类，5个属于B类。

用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。

函数2：StandardScaler

#  如果涉及到归一化，则在测试集上也要使用训练集模型提取的归一化函数。
from sklearn import preprocessing  # 预处理模块
scaler = preprocessing.StandardScaler().fit(X_train)  # 通过训练集获得归一化函数模型，在训练集和测试集上都使用这个归一化函数
X_train_transformed = scaler.transform(X_train)
clf = svm.SVC(kernel='linear', C=1).fit(X_train_transformed, y_train) # 使用训练集训练模型X_test_transformed = scaler.transform(X_test)
print(clf.score(X_test_transformed, y_test))  # 计算测试集的度量值（准确度） 可见归一化后结果未必好

为什么要进行归一化？

归一化后加快了梯度下降求最优解的速度；如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。
归一化有可能提高精度；一些分类器需要计算样本之间的距离（如欧氏距离）如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

哪些机器学习算法不需要(需要)做归一化?

概率模型（树形模型）不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。

归一化方法

作用：去均值和方差归一化，且是针对每一个特征维度来做的，而不是针对样本。标准差标准化（standardScale）使得经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：该值减去均值除以标准差！

其他的归一化类型

线性归一化

这种归一化方法比较适用在数值比较集中的情况。缺陷：如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。

非线性归一化

经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线

函数3：

# ===================================直接调用交叉验证评估模型==========================
from sklearn.model_selection import cross_val_score # 交叉验证所需的函数
clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf, iris.data, iris.target, cv=5)
#参数分别是：模型，数据，标签，迭代次数print(scores)  # 打印输出每次迭代的度量值（准确度）
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))  # 获取置信区间。（也就是均值和方差）

交叉验证优点：

1：交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。
2：还可以从有限的数据中获取尽可能多的有效信息。

此外还有一个KFold：

kfold是将数据集划分为K-折，只是划分数据集；

cross_val_score是根据模型进行计算，计算交叉验证的结果，你可以简单认为就是cross_val_score中调用了kfold进行数据集划分。