Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)
代码示例
features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量用来建模X = pd.get_dummies(train[features])# 把分类变量转化为哑变量
哑变量详解
定义:哑变量(DummyVariable),也叫虚拟变量
目的:主要用于处理多分类变量,把不能量化的多分类变量量化,每个哑变量对模型的影响都细化,提高模型精准率
具体操作
假如“职业因素”列,共有5个分类变量:学生、农民、工人、公务员、其他。转化为4列0、1变量,从而提高模型精度。
-
哪些情况下要设置哑变量?
无序多分类变量
例如,“血型”分为A、B、O、AB四个类型,如果直接赋值为1、2、3、4,它在数学上是有从小到大的顺序关系的,而且还是等距的。这样和现实情况不符,需要转化为哑变量。
有序多分类变量
例如,疾病的严重程度,分为轻、中、重度,如果赋值为1、2、3(等距)或者1、2、4(等比),这样虽然可以体现等级关系,但与现实不符。此时可以转化为哑变量。
连续性变量
年龄很细,年龄增加一岁,对模型的影响很小,没有太大的实际意义。我们可以把连续变量离散化,以10岁作为一个年龄段划分,0~10、11~20、21~30等等,用1、2、3、4表示。此时可以转化为哑变量,使得分类变量对模型的影响足够充分
-
Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)相关推荐
- Python超实用小技巧:统计每列缺失值的占比
代码 def missing_percent(df):nan_percent = 100*(df.isnull().sum()/len(df))# df.isnull().sum()统计每一列的缺失值 ...
- Python超实用小技巧:添加新列——两列之间运算得到第三列
目的:表亲+近亲+自己,统计孤身一人和非孤身一人的信息 for dataset in full_data:dataset['FamilySize'] = dataset['SibSp'] + data ...
- 值得玩味儿的14个Python编程小技巧
全文共394个字,1张图,预计阅读时间5分钟. 最近的工作中经常使用Python编写一些基本解决一些NLP的小问题,在自己的工作日记里面也记录了不少的python编程中常用的小"Trick& ...
- 零基础入门学习Python,这13个Python惯用小技巧一定要收藏
Python的小技巧很多,入门容易精通难!在进阶的路上,有没有什么好的技巧和好的方法,就是不断总结,不断记笔记!尤其是好的用法,就像写作文一样,好的名言警句要多背诵一些,写作的时候,肚子里的墨水多了才 ...
- pythonencoding etf-8_etf iopv python 代码30个Python常用小技巧
1.原地交换两个数字x, y =10, 20 print(x, y) y, x = x, y print(x, y) 10 20 20 10 2.链状比较操作符n = 10 print(1 print ...
- python dict 合并同类项_零基础入门学习Python,这13个Python惯用小技巧一定要收藏...
原标题:零基础入门学习Python,这13个Python惯用小技巧一定要收藏 Python的小技巧很多,入门容易精通难!在进阶的路上,有没有什么好的技巧和好的方法,就是不断总结,不断记笔记!尤其是好的 ...
- Python常用小技巧(五)——批量读取json文件
Python常用小技巧(五)--批量读取json文件 前言:其实Python能够批量读取很多文件,这里,本人以json文件为例(json是标注图片时生成的文件,记录有标注的坐标和标签,友情推荐标注图片 ...
- python常用小技巧(四)——批量图片改名
python常用小技巧(四)--批量图片改名 前言:在日常使用中我们需要批量修改图片名字,使用Python的话就可以很快地完成这个目标 一.材料准备 - os 二.程序编写 # -*- coding: ...
- Python常用小技巧(二)——打开图片
Python常用小技巧(二)--打开图片 前言:对于大量图片的文件夹,你很难手工去检查每张图片是否损坏,这时候就要用程序去检查每张图片是否能打开了 一.材料准备 - os - PIL 二.程序编写 i ...
最新文章
- git上传代码到码云(详细)
- python算两个点的距离公式_计算Python Numpy向量之间的欧氏距离实例
- 认认真真推荐几个机器学习和Python类的公众号
- 六款值得推荐的 android 开源框架简介
- SAP Spartacus org unit list点击item之后的页面跳转实现
- js正则看这篇就够了
- 【零基础学Java】—数组(五)
- Oracle客户端的卸载
- Revit (6) - Teigha - LayerTable
- java控制台进度_java进度条:控制台输出百分比示例代码
- 《道德经》——《老子道德经》
- c语言中大于号什么意思和作用,程序员必须要使用的大于号,小于号你知道几个?教你轻松入门C语言...
- 炒黄金短线交易如何放大收益
- kali linux 账号管理
- 计算机中的网络怎么共享的打印机驱动,如何共享打印机,如何设置打印机共享打印机共享设置图解-中关村在线...
- SQL的删除语句delete(删除表中的数据)
- 如何挑选适合自己的笔记本电脑
- 计算机视觉之目标检测与轨迹追踪
- linux 页缓存 块缓存,页缓存和块缓存
- linux中network启动不了的三种解决方案
热门文章
- Articulate Storyline 2: Advanced Techniques Articulate Storyline 2:高级技巧 Lynda课程中文字幕
- java okHttp3
- clickhouse on cluster设置
- 使用 mysqld_safe 启动 mysqld 服务
- 800亿市值登陆科创板,风口之上,奇安信迎来新起点
- Koa2入门笔记 (上)
- 即刻报名 Next '22 中文精选课,探新发布,赢周边礼!
- TEW 691GR无线N千兆路由器有新的Linksys和贝尔金相比
- Microsoft Edge浏览器主页被篡改的解决办法(Microsoft Edge浏览器每次打开都是同一个页面)
- 线性回归数值型预测:预测鲍鱼的年龄