Review of key concepts of supervised learning

目标函数:

L表示模型对训练数据的拟合程度,正则化项衡量模型的复杂度。

正则化:降低模型的复杂度——L1正则化和L2正则化

不同的损失函数和正则化方法:


最小化L,能够得到最低损失的模型;最小化正则化可以得到简单模型,提高模型的稳定性。

Regression Tree and Ensemble (What are we Learning)

回归树:
● Decision rules same as in decision tree
● Contains one score in each leaf value

回归树的融合:

树融合:广泛使用,如GBM、RandomForest等。
● 与输入数据的取值范围无关,所以无需做特征归一化
● 能够学习到特征间的高维相关性
● 工业使用,扩展性好

学习的是fk(树),而不是权重w——体现gradient的思想。
目标函数以及正则项的选择:


回归树不止用于做回归,还可以做分类、排序等,主要依赖于目标函数的定义。

Gradient Boosting (How do we Learn)


f累加的方式:

使用二阶泰勒展开式来近似Loss:

忽略常量项,可以得到目标函数为:


Refine the definition of tree:

定义树的复杂度:

目标函数变为:


对于每棵树,其查找算法:

由于选择树结构是一个NP难问题,所以使用贪心机制来做树生长,根据定义的Gain来选择最佳分割。

我们只需要线性扫描排好序的样本,然后根据Gain来决定最佳分割。

这样,时间复杂度为O(ndklogn),还可以通过近似和已排序特征缓存来优化。
可以将类别属性进行one-hot编码,避免需要将连续属性和类别属性分开处理。当类别比较多时,容易得到稀疏特征,学习算法更倾向于处理稀疏数据。
剪枝和正则化:
根据Gain是否为负,做pre-stopping和post-prunnig。

陈天奇slide学习笔记相关推荐

  1. 数据结构与算法(陈越)(学习笔记)(更新ing)

    数据结构(陈越) 一.数据结构(计算运行时间) #include<stdio.h> #include<time.h> #include<math.h> clock_ ...

  2. [陈天奇]机器学习编译课程学习笔记

    [陈天奇]机器学习编译课程学习笔记 文章目录 [陈天奇]机器学习编译课程学习笔记 @[TOC] 第一节 机器学习编译概述 1.为什么要学习机器学习编译? 2.机器学习编译的目标是什么? 3.MLC(M ...

  3. 陈天奇《Introduction to Boosted Trees》PPT 缩略版笔记

    深入研究了一下陈天奇Boosted Tree的PPT,做了点简单的笔记,可以说是PPT的缩略版: 框架有了,截了些重要的图和公式. 虽然简略,但是足以学习大牛思考问题的方式. Review of ke ...

  4. 陈表达VBA学习笔记-新建工作表鼠标右键菜单按钮

    陈表达VBA学习笔记-新建工作表鼠标右键菜单按钮:新建一个我的菜单按钮 设置对应的宏过程名称为 [我的菜单宏] 点击按钮弹窗信息,信息可自定义设置 详细代码如下: Sub 新建右键菜单()Dim 菜单 ...

  5. 数据结构(陈越、何钦铭)学习笔记

    本系列文章为浙江大学陈越.何钦铭数据结构学习笔记,系列文章链接如下: 文章目录 一.基本概念 二.线性结构 三.树 四.图 五.排序 六.散列查找 一.基本概念 数据结构基础:P1-基本概念 数据结构 ...

  6. 达芬奇PRO板的FPGA功能学习笔记(一)

    达芬奇PRO板的FPGA功能学习笔记(一) 从编译到实现需要五个步骤: 1.写代码(verilog语言) 2.综合分析 3.写约束文件 约束文件主要是定义接口,命令第一个关键字代表命令的名称,其后的每 ...

  7. 陈天奇高赞文章:新一代深度学习编译技术变革和展望

    ©作者 | 陈天奇 来源 | 机器之心 陈天奇是机器学习领域著名的青年华人学者之一,本科毕业于上海交通大学ACM班,博士毕业于华盛顿大学计算机系,研究方向为大规模机器学习.在本文中,陈天奇回答了目前深 ...

  8. 陈天奇团队发布TVM:把深度学习部署到手机、树莓派等更多硬件

    本文来自AI新媒体量子位(QbitAI) △ 陈天奇,华盛顿大学计算机系博士生,此前毕业于上海交通大学ACM班.XGBoost.cxxnet等著名机器学习工具的作者,MXNet的主要贡献者之一. DM ...

  9. 陈宝林《最优化理论与算法》超详细学习笔记 (八)————最优性条件

    陈宝林<最优化理论与算法>超详细学习笔记 (八)----最优性条件 无约束问题的极值条件 必要条件 二阶充分条件 充要条件 约束极值问题的最优性条件 不等式约束的一阶最优性条件 无约束问题 ...

最新文章

  1. SQL server2008 无法启动调试存储过程
  2. 一个基于特征向量的近似网页去重算法——term用SVM人工提取训练,基于term的特征向量,倒排索引查询相似文档,同时利用cos计算相似度...
  3. leetcode523 Continuous Subarray Sum
  4. GDCM:DICOM PS 3.10文件格式的测试程序
  5. PLT redirection through shared object injection into a running process
  6. Java IdentityHashMap putAll()方法与示例
  7. BootStrap笔记-文字排版
  8. 剑指offer 15.二进制中1的个数
  9. mysql删除中继日志_mysql 中继日志删除可以自动获取吗
  10. (81)Verilog HDL:状态机一段式
  11. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M
  12. tomcat运行模式(bio,aio,apr)
  13. JBoss 系列三十七:jBPM5示例之 Rule Task
  14. 艾伟:WM有约(一):你好,CF
  15. WinForm中的一种死锁场景
  16. 新版手机浏览器_简约但不“简单”的手机浏览器
  17. “商圈合伙人”让异业联盟无边界化,打造共赢生态圈
  18. PCS7符号计算机名称,pcs7中的符号表
  19. 光谱分辨率单位_遥感图像的空间分辨率,光谱分辨率,辐射分辨率,时间分辨率...
  20. Golang包管理工具(三)之dep的使用

热门文章

  1. 统计机器翻译教程下载
  2. 完美解决Windows预览体验计划错误0x80072ee2
  3. 怎么用u盘重装系统win11正版,u盘安装win11的方法
  4. 02、cordic算法原理及verilog实现
  5. 特约专栏 | ASIL分解和应用
  6. 怎么实现接口解耦_将接口与实现解耦-使用分离的接口
  7. JAVA高级开发工程师面试系列——RocketMQ
  8. 将Navicat右键表【对象信息】-【DDL】的内容转换为JavaBean
  9. PMP考试 项目启动会和项目开工会议的区别(转载)
  10. AP Autosar平台设计 9 诊断