1.如果只划分测试集和训练集 经验是75%作为训练集
sklearn中的train_test_split()默认这样划分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split()

2.通常使用sklearn中的score方法计算结果的精度(正确预测比例)

3.KNN算法有两个重要参数:邻居个数和数据点之间距离的度量方法
在实践中,选择较小的邻居个数(例如3或5个)效果较好,sklearn中默认使用欧氏距离
构建KNN模型速度很快,若训练集很大(特征数多或样本数多),预测速度可能较慢
对于稀疏数据集(大多数特征值为0),KNN效果很不好

4.普通最小二乘法,即要求预测值和真实值均方误差最小
均方误差为预测值和真实值只差的平方和除以样本数

5.训练集和测试集之间的分数差异是过拟合的明显标志
例如,训练集0.95 测试集0.61

6.线性回归防止过拟合可以采用岭回归(L2正则化)
from sklearn,linear_model import Ridge
ridge = Ridge().fit(X_train,y_train)
线性回归中的score为R^2
岭回归的结果,训练集分数可能低于线性回归,但测试集分数一般高于线性回归
默认岭回归的alpha = 1.0
岭回归惩罚了系数的L2范数或w的欧式长度
增大alpha会使得各个系数wi更加趋向0,从而提高泛化性能
可以比较alpha为10 和 0.1的scores
当岭回归alpha = 0时,即线性回归

7.学习曲线:回归问题中,横轴为训练集大小,纵轴为score(R^2),绘制训练集和测试集曲线

8.如果有足够多的数据,正则化就不太重要了

9.线性回归防止过拟合可以采用Lasso回归(L1正则化)
因为Lasso会使得部分特征的系数(w)为0,所以相当于做特征筛选
只呈现重要的特征
from sklearn,linear_model import Lasso
ridge = Lasso().fit(X_train,y_train)
默认的alpha = 1
可能会欠拟合(训练集和测试集的score都不高)
我们此时应该减小alpha,增大max_iter(运行迭代的最大次数)
from sklearn,linear_model import Lasso
ridge = Lasso(alpha = 0.1,max_iter = 100000).fit(X_train,y_train)
如果alpha太小,则可能过拟合,即与线性回归效果相似

10.Lasso回归和岭回归一般会首选后者
如果特征很多,认为只有几个是重要的,则选择Lasso
如果为了模型的可解释性,选择Lasso(因为类似特征选择)

11.sklearn中逻辑回归和线性支持向量机都默认使用L2正则化
若换为L1正则化:
LogisticRegression(penalty = "l1").fit(X_train,y_train)
使用参数C表示正则化强度,C越小,正则化越强。
默认C=1
LogisticRegression(C=100).fit(X_train,y_train)
有时训练集测试集分数都很高,但是分数接近,可能是欠拟合
此时增大C,使正则化减弱看看结果分数

12.线性模型训练速度非常快,预测速度也很快,适合在大数据集上使用,也适合稀疏数据

13.朴素贝叶斯分类器速度更快(相比于线性分类器逻辑斯特回归和线性支持向量机)
但是其泛化能力比线性分类器差

14.sklearn中提供三种朴素贝叶斯分类器
GaussianNB课用于任意连续数据
BernoulliNB假定输入数据为二分类数据
MultinomialNB假定输入的数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句中出现的次数)
后两个主要用于文本分类

15.决策树也可用于回归任务,预测时基于每个节点的测试对树进行遍历,最终找到新数据点所属的叶节点
这一数据点的输出即为此叶节点中所有训练点的平均目标值。

16.决策树可以采用预剪枝和后剪枝来防止过拟合
sklearn中只实现了预剪枝
预剪枝限制条件可以包括
限制树的最大深度
限制叶节点的最大数目
规定一个节点中数据点的最小数目防止继续划分

17.决策树graphviz可视化图中的samples给出该节点中的样本数
values给出每个类别的样本数

18.特征重要性指标可以看决策树的特征重要性,每个特征值介于0和1之间
tree.feature_importance_
且加和为1
0表示特征没用到
1表示完美预测目标值

19.决策树回归不能外推,也不能在训练数据范围之外进行预测

20.决策树优点:
(1)较小的树模型可视化容易,容易解释理解
(2)算法不受数据缩放影响(因为每个特征单独处理),特征不需要预处理(归一化 标准化)
特别是特征尺度大小相差大或者二元特征和连续特征同时存在时
决策树缺点:
既使预剪枝,也经常过拟合,泛化能力差,所以大多数情况采用集成模型代替单棵决策树。

原文发布时间为:2018-07-20
本文作者:王大伟
本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”

Python机器学习(sklearn)——分类模型评估与调参总结(上)相关推荐

  1. Python机器学习(sklearn)——分类模型评估与调参总结(下)

    21.集成方法有随机森林(random forest)和梯度提升树(gradient boosted decision tree)GBDT 随机森林中树的随机化方法有两种: (1)通过选择用于构造树的 ...

  2. python分类算法评估模型_Python机器学习(sklearn)——分类模型评估与调参总结(下)...

    21.集成方法有随机森林(random forest)和梯度提升树(gradient boosted decision tree)GBDT 随机森林中树的随机化方法有两种: (1)通过选择用于构造树的 ...

  3. python训练模型测试模型_python 机器学习中模型评估和调参

    在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题 先展示先通常的做法 import pandas as pd f ...

  4. 万字长文总结机器学习的模型评估与调参 | 附代码下载

    作者 | Sebastian Raschka 翻译&整理 | Sam 来源 | SAMshare 目录 一.认识管道流 1.1 数据导入 1.2 使用管道创建工作流 二.K折交叉验证 2.1 ...

  5. 万字长文总结机器学习的模型评估与调参

    作者 | Sebastian Raschka 翻译&整理 | Sam 来源 | SAMshare 目录 一.认识管道流 1.1 数据导入 1.2 使用管道创建工作流 二.K折交叉验证 2.1 ...

  6. [机器学习] 二分类模型评估指标---精确率Precision、召回率Recall、ROC|AUC

    一 为什么要评估模型? 一句话,想找到最有效的模型.模型的应用是循环迭代的过程,只有通过持续调整和调优才能适应在线数据和业务目标. 选定模型时一开始都是假设数据的分布是一定的,然而数据的分布会随着时间 ...

  7. 多分类f1分数_机器学习之分类模型评估总结

    一.概述 在机器学习模型搭建好之后,需要对模型进行评估,针对不同的算法模型有不同的评估方法,比如:分类算法.回归算法.聚类算法等,本文主要是针对分类算法的模型评估方法进行总结整理,便于自己对评估方法的 ...

  8. python 两点曲线_python机器学习分类模型评估

    python机器学习分类模型评估 1.混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多 ...

  9. 02_混淆矩阵、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure) +Roc曲线和PR曲线+sklearn中分类模型评估API+ 自己补充整理

    此博文参考: 关于ROC绘制参考博文: https://blog.csdn.net/u011630575/article/details/80250177 Python+ROC相关的博文: https ...

  10. Python分类模型评估

    Python分类模型评估 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 分类模型评估简介 对给给定的分类模型进行质量评估,常 ...

最新文章

  1. miniui文件上传 linux,MINIUI grid学习笔记
  2. Grafana中整个Dashboard报错问题解决
  3. Tiniux 3.0 / Memory.c / OSMemFree
  4. Qt on android 蓝牙开发(控制小车)
  5. POI文件导入:代码实现-解析Excel构造用户列表
  6. 在C 语言中,请一定记得初始化局部变量!
  7. Lyft的TypeScript实践
  8. 高颜值可定制在线作图工具-第二版
  9. redirect重定向后https变成了http如何解决
  10. STM32工作笔记0019---新建工程模板-基于固件库-M3
  11. 【报告分享】人工智能新时代报告.pdf(附下载链接)
  12. 【CAD】自定义实体的步骤(转)
  13. SQL语句:查询多表更新数据
  14. sql server2016数据库学习必备(保姆级教程)
  15. java httpsession 类型_JavaWeb HttpSession
  16. 服务器怎么设置自动拨号,网件路由器怎么设置自动拨号
  17. plsql不读操作系统环境变量_64位Oracle客户端上PLSQL无法识别ORACLE_HOME解决方案
  18. 念整数(5分) 题目内容: 你的程序要读入一个整数,范围是[-100000,100000]。然后,用汉语拼音将这个整数的每一位输出出来。 如输入1234,则输出: yi er san si 注
  19. Java正则表达式校验数字、字母及特殊字符
  20. 讲给后台程序员看的前端系列教程(06)——HTML5标签(5)

热门文章

  1. Atitit 歌曲年份抓取的nlp ai项目 原理通过百度搜索,抓取第一页数据,正则数字,过滤年份。。 显示格式。。歌曲,年份,年份周围前后40字符,方便核对 通过百科抓取比较准确 红尘情歌
  2. Atitit sql之道 艾龙著 attilax 1. Ddl dml 3 2. Crud 3 3. 高级sql 3 3.1. Merge 3 3.2. 数据库翻页 limit offset系列
  3. Atitit 品牌之道 attilax著 艾龙 著 1. 第1章 品牌和品牌管理 1 2. 第Ⅱ篇 制定品牌战略 2 3. 第Ⅲ篇 品牌营销活动:设计与执行 2 4. 第Ⅳ篇 评估和诠释品牌绩效 3
  4. Atitit atitit 编程语言之道补充 s22 attilax 艾龙 著 1. 程序设计是个什么概念呢?历史发展 1 1.1. 连接电缆 2 1.2. 程序内置纸带打点 2 1.3. FORT
  5. Atitit 数据库视图与表的wrap与层级查询规范
  6. Atitit 微信支付 支付结果通用通知
  7. Atitit.你这些项目不都是模板吗?不是原创  集成和整合的方式大总结
  8. Atitit.Base64编码原理与实现设计
  9. Web开发之旅--使用Flask 实现REST架构的API
  10. 投资顾问模式将改变整个基金行业