类别型特征编码由于是字符串类型,所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意:xgboost模型也需要提前one-hot编码转换才能入模。

下面是代码:

    a = [i for i in range(1000)]b = ["tag","bga","efd","rfh","esg","tyh"]c = [b[randint(0,5)] for i in range(1000)]d = [randint(0,1) for i in range(1000)]tmp = []for i in range(1000):tmp.append([a[i],c[i],d[i]])df = pd.DataFrame(tmp,columns=["a","b","label"])   # 造数据import lightgbmdf["b"] = df["b"].astype('category')   # 必须有,不然报错cf = lightgbm.LGBMClassifier(max_depth=3)cf.fit(df[["a","b"]],df["label"],categorical_feature="b")  # 记得加上这个参数from sklearn.metrics import accuracy_scoreprint(accuracy_score(df["label"].values, cf.predict(df[["a","b"]])))

就是这么easy!

lightgbm模型处理类别型特征相关推荐

  1. 【机器学习】树模型遇上类别型特征(Python)

    在数据挖掘项目的数据中,数据类型可以分为两种:有序的连续数值 和 无序的类别型特征. 对于xgboost.GBDT等boosting树模型,基学习通常是cart回归树,而cart树的输入通常只支持连续 ...

  2. 一文了解类别型特征的编码方法

    来源:Unsplash,作者:an Rizzari 2019 年第 78 篇文章,总第 102 篇文章 目录: 问题描述 数据准备 标签编码 自定义二分类 one-hot 编码 总结 问题描述 一般特 ...

  3. KDD 2021 | 谷歌DHE:不使用embedding table的类别型特征embedding

    作者 | Chilia 哥伦比亚大学 NLP搜索推荐 整理 | NewBeeNLP 类别型特征(用户ID/物品ID)的embedding在推荐系统中扮演着重要的作用,标准的方式是用一个(巨大的)emb ...

  4. 如何处理类别型特征?

    目录: 问题描述 数据准备 标签编码 自定义二分类 one-hot 编码 问题描述 一般特征可以分为两类特征,连续型和离散型特征,而离散型特征既有是数值型的,也有是类别型特征,也可以说是字符型,比如说 ...

  5. CatBoost 是如何自动高级处理类别型特征的?

    我们知道,CatBoost可以很好地处理类别型数据.然而,它还具有大量的训练参数,可以更好地对类别型特征进行预处理.本文中,小猴子将和大家一起学习如何使用这些参数处理类别型特征的. CatBoost是 ...

  6. ML之FE:对pandas的dataframe中的类别型字段进行数字编码化(类别型特征数值化)并导出映射表daiding

    ML之FE:对pandas的dataframe中的类别型字段进行数字编码化(类别型特征数值化)并导出映射表daiding 目录 对pandas的dataframe中的类别型字段进行数字编码化(类别型特 ...

  7. CatBoost 模型中标称型特征转换成数字型特征

    接上一篇文章 CatBoost 模型中标称特征的处理 ,这篇说一下CatBoot中实现的标称特征处理方法. 可以查看官网原文 Transforming categorical features to ...

  8. 树模型对类别变量的 7 种处理方法(Python代码)

    在数据挖掘项目的数据中,数据类型可以分为两种:有序的连续数值 和 无序的类别型特征. 对于xgboost.GBDT等boosting树模型,基学习通常是cart回归树,而cart树的输入通常只支持连续 ...

  9. 机器学习之类别性特征

    类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归.支持向量机等模型来说,类别型特征必须经过处理转换成数值型.Sklearn中提供了几个转换器来处理文本属 ...

最新文章

  1. Python 实现感知器模型、两层神经网络
  2. python3 清除asyncio队列 方法
  3. C++——构造函数析构函数
  4. 【题解】luogu p1156 垃圾陷阱
  5. windows上使用image库
  6. DefaultListableBeanFactory 对配置lazy-init 属性单态Bean 的预实例化
  7. 机房系统(一)——【修改密码 登录 】
  8. 电脑键盘按钮功能注释大全
  9. C#窗体控件-列表框控件ListBox
  10. ionic build android release,ionic build android -release运行报错
  11. 【bzoj5072】[Lydsy十月月赛]小A的树 树形背包dp
  12. SpringCloud(一)
  13. paip.提升安全性-------生成一个安全的验证码
  14. 【2018-2019 ACM-ICPC Pacific Northwest Regional Contest (Div. 1) F】Rectangles【扫描线】
  15. Adobe Acrobat Pro制作pdf模板
  16. 常用中文字体的Unicode编码
  17. 如何通俗理解泊松分布?
  18. java游戏繁体字名字_游戏繁体字名字
  19. ArcGIS的.prj文件生成proj4格式的字符串
  20. [通讯方式] 串口通信

热门文章

  1. 《中华人民共和国网络安全法》
  2. java 反射之invoke方法图解
  3. cs109-energy+哈佛大学能源探索项目 Part-3(探索性分析)
  4. jdk点击安装没反应_jdk安装无反应
  5. 自定义表单的需求-表单设计器
  6. 摩尔斯电码-摩斯密码
  7. 知到网课英语口语趣谈考试试题|真题|题库(含答案)
  8. 校园表白墙、微信表白墙、校园墙 微信小程序 JAVA 开发记录与分享
  9. 图像压缩(基于matlab)
  10. Hello CSDN!