代码示例

 features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量用来建模X = pd.get_dummies(train[features])# 把分类变量转化为哑变量

哑变量详解

  • 定义:哑变量(DummyVariable),也叫虚拟变量

  • 目的:主要用于处理多分类变量,把不能量化的多分类变量量化每个哑变量对模型的影响都细化,提高模型精准率

  • 具体操作

    • 假如“职业因素”列,共有5个分类变量:学生、农民、工人、公务员、其他。转化为4列0、1变量,从而提高模型精度。

      • 哪些情况下要设置哑变量?

        1. 无序多分类变量

          • 例如,“血型”分为A、B、O、AB四个类型,如果直接赋值为1、2、3、4,它在数学上是有从小到大的顺序关系的,而且还是等距的。这样和现实情况不符,需要转化为哑变量。

        2. 有序多分类变量

          • 例如,疾病的严重程度,分为轻、中、重度,如果赋值为1、2、3(等距)或者1、2、4(等比),这样虽然可以体现等级关系,但与现实不符。此时可以转化为哑变量。

        3. 连续性变量

          • 年龄很细,年龄增加一岁,对模型的影响很小,没有太大的实际意义。我们可以把连续变量离散化,以10岁作为一个年龄段划分,0~10、11~20、21~30等等,用1、2、3、4表示。此时可以转化为哑变量,使得分类变量对模型的影响足够充分

Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)相关推荐

  1. Python超实用小技巧:统计每列缺失值的占比

    代码 def missing_percent(df):nan_percent = 100*(df.isnull().sum()/len(df))# df.isnull().sum()统计每一列的缺失值 ...

  2. Python超实用小技巧:添加新列——两列之间运算得到第三列

    目的:表亲+近亲+自己,统计孤身一人和非孤身一人的信息 for dataset in full_data:dataset['FamilySize'] = dataset['SibSp'] + data ...

  3. 值得玩味儿的14个Python编程小技巧

    全文共394个字,1张图,预计阅读时间5分钟. 最近的工作中经常使用Python编写一些基本解决一些NLP的小问题,在自己的工作日记里面也记录了不少的python编程中常用的小"Trick& ...

  4. 零基础入门学习Python,这13个Python惯用小技巧一定要收藏

    Python的小技巧很多,入门容易精通难!在进阶的路上,有没有什么好的技巧和好的方法,就是不断总结,不断记笔记!尤其是好的用法,就像写作文一样,好的名言警句要多背诵一些,写作的时候,肚子里的墨水多了才 ...

  5. pythonencoding etf-8_etf iopv python 代码30个Python常用小技巧

    1.原地交换两个数字x, y =10, 20 print(x, y) y, x = x, y print(x, y) 10 20 20 10 2.链状比较操作符n = 10 print(1 print ...

  6. python dict 合并同类项_零基础入门学习Python,这13个Python惯用小技巧一定要收藏...

    原标题:零基础入门学习Python,这13个Python惯用小技巧一定要收藏 Python的小技巧很多,入门容易精通难!在进阶的路上,有没有什么好的技巧和好的方法,就是不断总结,不断记笔记!尤其是好的 ...

  7. Python常用小技巧(五)——批量读取json文件

    Python常用小技巧(五)--批量读取json文件 前言:其实Python能够批量读取很多文件,这里,本人以json文件为例(json是标注图片时生成的文件,记录有标注的坐标和标签,友情推荐标注图片 ...

  8. python常用小技巧(四)——批量图片改名

    python常用小技巧(四)--批量图片改名 前言:在日常使用中我们需要批量修改图片名字,使用Python的话就可以很快地完成这个目标 一.材料准备 - os 二.程序编写 # -*- coding: ...

  9. Python常用小技巧(二)——打开图片

    Python常用小技巧(二)--打开图片 前言:对于大量图片的文件夹,你很难手工去检查每张图片是否损坏,这时候就要用程序去检查每张图片是否能打开了 一.材料准备 - os - PIL 二.程序编写 i ...

最新文章

  1. git上传代码到码云(详细)
  2. python算两个点的距离公式_计算Python Numpy向量之间的欧氏距离实例
  3. 认认真真推荐几个机器学习和Python类的公众号
  4. 六款值得推荐的 android 开源框架简介
  5. SAP Spartacus org unit list点击item之后的页面跳转实现
  6. js正则看这篇就够了
  7. 【零基础学Java】—数组(五)
  8. Oracle客户端的卸载
  9. Revit (6) - Teigha - LayerTable
  10. java控制台进度_java进度条:控制台输出百分比示例代码
  11. 《道德经》——《老子道德经》
  12. c语言中大于号什么意思和作用,程序员必须要使用的大于号,小于号你知道几个?教你轻松入门C语言...
  13. 炒黄金短线交易如何放大收益
  14. kali linux 账号管理
  15. 计算机中的网络怎么共享的打印机驱动,如何共享打印机,如何设置打印机共享打印机共享设置图解-中关村在线...
  16. SQL的删除语句delete(删除表中的数据)
  17. 如何挑选适合自己的笔记本电脑
  18. 计算机视觉之目标检测与轨迹追踪
  19. linux 页缓存 块缓存,页缓存和块缓存
  20. linux中network启动不了的三种解决方案

热门文章

  1. Articulate Storyline 2: Advanced Techniques Articulate Storyline 2:高级技巧 Lynda课程中文字幕
  2. java okHttp3
  3. clickhouse on cluster设置
  4. 使用 mysqld_safe 启动 mysqld 服务
  5. 800亿市值登陆科创板,风口之上,奇安信迎来新起点
  6. Koa2入门笔记 (上)
  7. 即刻报名 Next '22 中文精选课,探新发布,赢周边礼!
  8. TEW 691GR无线N千兆路由器有新的Linksys和贝尔金相比
  9. Microsoft Edge浏览器主页被篡改的解决办法(Microsoft Edge浏览器每次打开都是同一个页面)
  10. 线性回归数值型预测:预测鲍鱼的年龄