数据处理——数据编码
1.pandas.get_dummies 的用法
get_dummies 是利用pandas实现one hot encode的方式。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]
import pandas as pd
df = pd.DataFrame([ ['green' , 'A'], ['red' , 'B'], ['blue' , 'A']]) df.columns = ['color', 'class']
pd.get_dummies(df)
编码前:
编码后:
2.二分类0,1编码
fake ->1 true->0
data['review'] = (data.rumorType == 'fake').astype('int')
pandas 的缺失值判断:
pd.isna(obj) /isnull(obj) #检测类似数组对象缺失值。
pd.notna(obj) /notnull(obj) #检测类似数组对象非缺失值。参数:obj:标量或数组
返回:布尔或布尔数组
说明:# NA值如None或np.nan,NaT将映射True值。''或np.inf不被视为NA值# pandas.options.mode.use_inf_as_na = True#视为na值# Series,DataFrame也有此方法;full,notfull是别名
数据处理——数据编码相关推荐
- 二值logit模型的适用条件_一文读懂条件Logistic回归
在医学研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组.各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,在医学上称作" ...
- 一文理解二元logistic回归
目录 1.二元logistic分析思路说明 2.如何使用SPSSAU进行二元logistic操作 3.二元logistic相关问题 在研究X对于Y的影响时,如果Y为定量数据,那么使用多元线性回归分析( ...
- 一文掌握多分类logistic回归
Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析.多分类Logistic回归分析和有序Logistic回归分析.logistic回归分析类型如下所示. Lo ...
- 问卷星问卷数据怎么快速导入SPSSAU?
最近收到小伙伴询问问卷星导入的问卷数据怎么编码? 现在的问卷调查,很多都是通过网络问卷的方式进行,问卷星是一个专业的在线问卷调查.测评投票平台,如果你的问卷正好是在问卷星网站发放,填答,回收数据,那太 ...
- logit回归模型假设_一文读懂条件Logistic回归
在医学研究中,为了控制一些重要的混杂因素,经常会把病例和对照按年龄,性别等条件进行配对,形成多个匹配组.各匹配组的病例数和对照人数是任意的,比如一个病例和若干个对照匹配即1:1,在医学上称作" ...
- RDD断点回归案例怎么分析?
1.背景 一般来讲美国民主党更倾向于更多的联邦支出,案例研究是否民主党获选对于联邦支出的影响.通常情况下如果得票率大于50%即会获选,反之小于50%则会落选.因而得票率则为驱动变量X,此处0.5则可作 ...
- 一文教你Heckman两阶段模型怎么分析
一.研究背景 在某些情况下,被解释变量Y的取值范围会受到限制,比如研究家庭医疗保险支出的影响因素时,某此家庭没有医疗支出即数字全部为0,也或者研究家庭收入水平时,某些样本家庭完全没有收入那么收入就全部 ...
- 问卷排序题应该怎样分析?
在一般的问卷调研中,除了常见的单选题.多选题,还有一类题型受到问卷设计者的偏爱. 这就是排序题,排序题不仅可以直观展现答题者对每个选项的态度,还能按照应答频次与重要程度对选项进行排名. 但设计问卷一时 ...
- 实用干货!信度分析超全步骤总结!
信度分析是问卷研究中最为基本的一种方法,其用于测量'量表题'数据的可靠性,简单来说就是测量样本有没有真实的回答问题.特别提示,如果是使用统计分析方法进行信度测量,那么一般都是针对量表题,这在SPSSA ...
最新文章
- iOS架构-自动打包并上传到App Store(python)(21)
- MySQL CPU 使用率高的原因和解决方法
- python二维表转一维表_二维表格转换成一维表格
- 继三星、华为外,苹果提交的专利显示它也要开发可折叠手机了...
- python错误代码提示手册_腾讯大佬整理了 Python 所有内置异常,Python高手必备的排错手册...
- securecrtp32位_SecureCRT 32位下载
- linux 路径结构
- python列表的表示形式_将列表的字符串表示形式转换为Python中的列表
- (一)GPS与基站定位
- 【Java爬虫】爬取淘宝买家秀
- 分享一下Java从基础到进阶各阶段视频教程
- 自定义IE地址栏图标
- Entrez检索实例 - NCBI
- 洛谷P3015 [USACO11FEB] Best Parenthesis
- Android通知栏—Notification(一)
- GBase 8a的产品简介
- LVI-SAM imageProjection.cpp 代码阅读 附录
- Python中的布尔类型
- python+人工智能学习线路
- 「鼎捷专家讲堂」曹永诚:数字化,拨开工厂云雾见青天