交叉验证与网格搜索

①交叉验证(训练集划分—训练集、验证集)–将所有数据分成n等分—并不具备调参能力
4等分就是4折交叉验证;一般采用10折交叉验证


②网格搜索—调参数(与交叉验证一同使用)

如果有多个超参数:采用排列组合的方式,组合进行调参—穷举法


估计器就是算法
param中有多少个超参数需要调整就输入多少个字典

决策树

基础知识:信息论
通信的数学原理,奠定了现代信息论的基础;信息的单位:比特

在不知道哪个球队夺冠概率大(即所有球队夺冠概率相等的情况下),获取冠军需要的代价是5比特

信息熵:
反应获取信息的代价。信息熵越大、不确定性越大(信息和消除不确定性相关)

这是在不知道哪个球队强的情况下,信息量最多是5;所以如果有先前数据,哪信息量应该小于5

信息增益

得知一个特征条件之后,减少的信息熵大小。
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度



决策树的分类依据:信息增益(信息增益最大的作为决策树第一个)

三种划分方法:

API

Gini系数把所有值当成连续值进行—很细
***缺点:***将所有在决策树走完后,全都可以正确定义,数据越多,树越来越复杂,为了使每个训练样本都能正确分类

决策树的优缺点:
优点:
①简单的理解和解释,树木可视化。
②需要很少的数据准备,其他技术通常需要数据归一化,
缺点:
①决策树学习者可以创建不能很好地推广数据的过于复杂的树,被称为过拟合。
②决策树可能不稳定,因为数据的小变化可能会导致完全不同的树被生成
改进:
①剪枝cart算法—删除叶子节点
②随机森林

随机森林

集成学习:
通过建立几个同样的模型组合的来解决单一预测问题;它的工作原理是生成多个同样分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
随机森林:
建立多个决策树,每个树的结果去投票

单个树建立过程:
①随机在n个样本当中选择一个样本,重复n次
②随机在M个特征当中选出m个特征—随机有放回的抽样—bootstrap抽样

API:

超参数:
①n_estimators
②max_depth
③max_feature

优点:
在当前所有算法中,具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本,而且不需要降维
能够评估各个特征在分类问题上的重要性对于缺省值问题也能够获得很好得结果

分类算法(数据划分\转换器、估计器\KNN\贝叶斯\决策树\随机森林\模型评估\调超参)

2022-1-17第三章机器学习基础--网格搜索超参数优化、决策树、随机森林相关推荐

  1. Python集成机器学习:用AdaBoost、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

    最近我们被客户要求撰写关于集成机器的研究报告,包括一些图形和统计输出. Boosting 是一类集成机器学习算法,涉及结合许多弱学习器的预测. 视频:从决策树到随机森林:R语言信用卡违约分析信贷数据实 ...

  2. 全网最全:机器学习算法模型自动超参数优化方法汇总

    什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter).还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper ...

  3. 【机器学习】五种超参数优化技巧

    转载:我不爱机器学习 超参数是用于控制学习过程的不同参数值,对机器学习模型的性能有显著影响. 超参数优化是找到超参数值的正确组合,以在合理的时间内实现数据的最大性能的过程 1 数据处理 import ...

  4. 【机器学习基础】支持向量机超参数的可视化解释

    作者 | Soner Yıldırım 编译 | VK 来源 | Towards Datas Science 支持向量机(SVM)是一种应用广泛的有监督机器学习算法.它主要用于分类任务,但也适用于回归 ...

  5. 伯克利『全栈深度学习』2022最新课程;谷歌『基于Transformers的通用超参数优化』经验分享;动图编辑器;前沿论文 | ShowMeAI资讯日报

  6. 《机器学习系列教程》:第二章 机器学习基础

    第二章 机器学习基础 机器学习and 数据分析 2.2 监督学习.非监督学习.半监督学习.弱监督学习? 根据数据类型的不同,对一个问题的建模有不同的方式.依据不同的学习方式和输入数据,机器学习主要分为 ...

  7. 深度学习 - 第二章 - 机器学习基础

    深度学习 - 第二章 - 机器学习基础 第二章 机器学习基础 2.1 各种常见算法图示 2.2 监督学习.非监督学习.半监督学习.弱监督学习? 2.3 监督学习有哪些步骤 2.4 多实例学习? 2.5 ...

  8. 计算机基础98均9,第三章 计算机基础 Windows98 (第二讲).ppt

    <第三章 计算机基础 Windows98 (第二讲).ppt>由会员分享,可在线阅读,更多相关<第三章 计算机基础 Windows98 (第二讲).ppt(26页珍藏版)>请在 ...

  9. 【机器学习实战】第1章 机器学习基础

    第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 ...

最新文章

  1. OpenGL 有时候纹理映射的部分问题
  2. python从入门到放弃图片大全-Python 从入门到放弃(一)
  3. 【Google Play】APK 扩展包 ( 2021年09月02日最新处理方案 | 制作 APK 扩展包 | 上传 APK 扩展包到 Google Play | APK 扩展文件上传时机 )
  4. Request —— 获取请求行数据 获取请求头数据 获取请求体数据
  5. 计算机控制读书报告心得,计算机控制系统读书报告
  6. 织梦内容管理系统(DedeCMS)
  7. jquery事件 on(),live(),delegate(),blind()
  8. 认识mysql总结_从根上理解Mysql - 读后个人总结1-搜云库
  9. 直通BAT JVM必考题:Minor GC、Major GC、Full GC的区别
  10. 受困于敏捷开发的数据与架构?肿么办?
  11. 「R」ggplot2拼图包patchwork推荐与使用
  12. RTL8153B ,瑞昱千兆网卡芯片 ,扩展坞HUB千兆网口芯片。
  13. win10任务栏透明_生命在于折腾,用三个小软件美化你的Win10桌面
  14. html文本框的文字间距,word文本框中2行文字的间距为什么那么大
  15. go 错误处理与测试
  16. 手机客户端设置同济邮箱的方法
  17. docker 存储驱动之overlay2
  18. java 调用支付宝支付接口
  19. 我的大学生活-2-14- 王海鹏
  20. Linux战地日记—date命令详细示例

热门文章

  1. WPF与3D 模型(一)把Solidworks里的模型导入进WPF程序
  2. 极大极小搜索 α-β剪枝的实现
  3. [网易]2018校园招聘编程题真题集合
  4. Technical support of ZYC-Roll Book
  5. python之路day3_python之路:day3
  6. C语言动态规划和文件操作练习——通讯录
  7. 各类PDA及手机硬重启方法
  8. python新手入门——————字符串函数(2)
  9. revit二次开发之程序调试
  10. Apache Struts2远程代码执行漏洞(S2-019)复现