前言

今天博主来介绍一个超级简单并且又极其实用的boosting算法包Catboost,据开发者所说这一boosting算法是超越Lightgbm和XGBoost的又一个神器。

catboost 简介

在博主看来catboost有一下三个的优点:

  • 它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我在这里介绍这个算法最大的motivtion,有了catboost,再也不用手动处理类别型特征了。
  • catboost还使用了组合类别特征,可以利用到特征之间的联系,这极大的丰富了特征维度
  • catboost的基模型采用的是对称树,同时计算leaf-value方式和传统的boosting算法也不一样,传统的boosting算法计算的是平均数,而catboost在这方面做了优化采用了其他的算法,这些改进都能防止模型过拟合

catboost 实战

这里博主采用的是之前参加一个CTR点击率预估的数据集,首先通过pandas读入数据。

from catboost import CatBoostClassifier
import pandas as pd
from sklearn.model_selection import train_test_split
i

深度学习核心技术精讲100篇(九)-Catboost算法原理解析及代码实现相关推荐

  1. 深度学习核心技术精讲100篇(十九)--GBDT(梯度提升树) 和 Resnet (残差网络)的原理

    残差 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.在集成学习中可以通过基模型拟合残差,使得集成的模型变得更精确:在深度学习中也有人利用layer去拟合残差将深度神经网络的性能提高变强.这 ...

  2. 深度学习核心技术精讲100篇(二十)-如何通过树模型实现梯度提升树(GBDT)+LR,随机森林(RandomForest) +LR

    前言 在讲如何通过树模型做特征工程之前,首先让我们回顾一下一个机器学习(除去深度学习项目部分)项目的大致流程: 从业务场景中抽象出问题--分类问题,回归问题,还是聚类问题等, 接下来是数据获取,数据清 ...

  3. 深度学习核心技术精讲100篇(六)-keras 实战系列之知识蒸馏(Knowledge Distilling)

    前言 深度学习在这两年的发展可谓是突飞猛进,为了提升模型性能,模型的参数量变得越来越多,模型自身也变得越来越大.在图像领域中基于Resnet的卷积神经网络模型,不断延伸着网络深度.而在自然语言处理领域 ...

  4. 深度学习核心技术精讲100篇(五十八)- 如何量化医学图像分割中的置信度?

    前言 在过去的十年里,深度学习在一系列的应用中取得了巨大的成功.然而,为了验证和可解释性,我们不仅需要模型做出的预测,还需要知道它在做出预测时的置信度.这对于让医学影像学的临床医生接受它是非常重要的. ...

  5. 深度学习核心技术精讲100篇(三十五)-美团餐饮娱乐知识图谱——美团大脑揭秘

    前言 " I'm sorry. I can't do that, Dave." 这是经典科幻电影<2001: A Space Odyssey>里HAL 9000机器人说 ...

  6. 深度学习核心技术精讲100篇(八)-keras 实战系列之深度学习中的多任务学习(Multi-task learning)

    多任务学习(Multi-task learning)简介 多任务学习(Multi-task learning)是迁移学习(Transfer Learning)的一种,而迁移学习指的是将从源领域的知识( ...

  7. 深度学习核心技术精讲100篇(七)-keras 实战系列之深度学习模型处理多标签(multi_label)

    前言 最近在读论文的的过程中接触到多标签分类(multi-label classification)的任务,必须要强调的是多标签(multi-label)分类任务 和 多分类(multi-class) ...

  8. 深度学习核心技术精讲100篇(五)-通过CTR预估对比深度学习模型(deepfm)梯度提升模型(catboost)

    前言 CTR预估模型的特点: 毫无疑问这个任务的是个二分类任务,预测点击与否. CTR 预估的特征一般是 用户的日志特征和画像特征,包含类别特征和数值型特征两种. 此任务的评估指标是 AUC 得分 或 ...

  9. 深度学习核心技术精讲100篇(二十四)-简单谈下深度学习在中文分词中的应用

    前言 随着深度学习的普及,有越来越多的研究应用新模型到中文分词上,让人直呼"手快有,手慢无".不过这些神经网络方法的真实水平如何?具体数值多少?以Sighan05中的PKU数据集为 ...

  10. 深度学习核心技术精讲100篇(七十九)-深度学习应用实战案例:携程金融自动化迭代反欺诈模型体系

    前言 支付欺诈风险是携程金融风控团队的主要防控对象,它一般是指用户卡片信息或账号信息泄露后,欺诈分子利用这些信息在携程平台进行销赃,侵害用户资金安全,给用户和携程平台带来损失. 1. 高对抗性 欺诈分 ...

最新文章

  1. TensorFlow练习20: 使用深度学习破解字符验证码
  2. 福利丨一门面向所有人的人工智能公开课:MIT 6.S191,深度学习入门
  3. Android Studio连接天天模拟器
  4. SpringMVC之@requestBody的作用
  5. Full_of_Boys训练5总结
  6. 计算机cf是什么比赛,端游cf什么是信用星级
  7. Maximum call stack size exceeded
  8. 优雅编程之这样编写代码,你就“正常”了(十五)
  9. java定时统计_java 定时任务每日晚上凌晨执行数据统计
  10. 最伟大IT人物10强出炉 乔布斯第一盖茨第三
  11. 多目标优化问题和遗传算法学习笔记
  12. HDU 4598 Difference
  13. Activiti整合Spring (Mysql8.0版本)
  14. 剖析抖音快速涨粉的文案号,了解大佬运营技巧,学以致用
  15. 【Web前端HTML5CSS3】02-前端开发准备
  16. Java 输出全部的希腊字母
  17. view_video.php,Android_Android使用VideoView播放本地视频和网络视频的方法,1、效果展示2、布局文件- phpStudy...
  18. Vundle ,Vim Bundle
  19. 利用Python对MNIST手写数据集进行数字识别(初学者入门级)
  20. 关于企业IT产品免费模式的思考

热门文章

  1. 第2章 数字之魅——求二进制中1的个数
  2. 使用keepalived加lvs做负载均衡,访问后端的服务器,2分钟后超时,需要重新登录...
  3. uploadify 附件上传
  4. 提取HTML代码中文字的C#函数
  5. css js html记录
  6. Windows不同版本的解释
  7. [导入]php 安全基础 附录C. 加密
  8. python3.6执行pip3时 Unable to create process using ''
  9. latex文档的优点和使用小tips
  10. mysql主从同步默认延迟_减少mysql主从数据同步延迟问题的详解