• sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字);

1. 简单区别

Panda’s get_dummies vs. Sklearn’s OneHotEncoder() :: What is more efficient?

  • sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string,如果数据集中的某些特征是 string 类型的话,需要首先将其转换为 integers 类型;

    • 在新版本中 sklearn 中,OneHotEncoder 实例的 fit 方法将不再接收 1 维数组,而必须是显式的二维形式;
    encoder = OneHotEncoder()
    encoder.fit([[1, 2], [2, 1]])
  • pd.get_dummies(),则恰将 string 转换为 integers 类型:

    >> pd.get_dummies(['A', 'B', 'A'])A  B
    0  1  0
    1  0  1
    2  1  0

2. sklearn.feature_extraction 下的 DictVectorizer

How can i vectorize list using sklearn DictVectorizer

将字典类型表示的属性,转换为向量类型:

>> measurements = [{'city=Dubai': True, 'city=London': True, 'temperature': 33.},{'city=London': True, 'city=San Fransisco': True, 'temperature': 12.},{'city': 'San Fransisco', 'temperature': 18.},
]>> vec.feature_names
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']>> vec.fit_transform(measurements).toarray()
array([[  1.,   1.,   0.,  33.],[  0.,   1.,   1.,  12.],[  0.,   0.,   1.,  18.]])

pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别相关推荐

  1. sklearn.preprocessing下的数据标准化(scale、MinMaxScaler)

    文章目录 scale MinMaxScaler scale from sklearn.preprocessing import scale Center to the mean and compone ...

  2. [Python中pandas实现独热编码][pd.get_dummies()函数]

    快速理解 独热编码前,存在1列x3行的数据: 1列的列名称为: 动物名称 3行中第1行的值为:      猫 3行中第2行的值为:      狗 3行中第3行的值为:      猫 独热编码后,变为2 ...

  3. pd.get_dummies,pandas中getget_dummies的用法,python中处理离散值的方法,将文字特征转换成数字特征的方法

    需要用到pandas这个包,调用请提前下载 这个就是用独热编码来替换离散值特征. 例如,"MSZoning"包含值"RL"和"Rm"我们将创 ...

  4. pd.get_dummies

    get_dummies 是利用pandas实现one hot encode的方式.详细参数请查看官方文档 官方文档在这里 pandas.get_dummies(data, prefix=None, p ...

  5. pd.get_dummies()

    get_dummies 是利用pandas实现one hot encode的方式 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy ...

  6. pd.get_dummies的使用和疑惑解答

    pd.get_dummies的使用 参考pandas官网 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, c ...

  7. 【特征提取】pd.get_dummies() 详解(One-Hot Encoding)

    pd.get_dummies 详解 Pandas.get_dummies 用法简单介绍 主要参数介绍 data prefix prefix_sep 其他参数(Parameters) Pandas.ge ...

  8. 【机器学习】pd.get_dummies()

    get_dummies 是利用pandas实现one hot encode的方式 机器学习之One-Hot Encoding详解 - 简书 (jianshu.com)https://www.jians ...

  9. pd.get_dummies方法理解

    文章目录 1.举例说明: 1.1 在jupyter notebook里面输入如下代码: 1.2 显示结果: 1.3 使用 pd.get_dummies(data) 1.4结果: 1.举例说明: 1.1 ...

最新文章

  1. Java与UML交互图
  2. Intel Realsense D435 python (Python Wrapper)example00: NumPy Integration 将深度帧数据转换为 Numpy 数组进行处理
  3. 谷歌视频架构搜索:从 EvaNet 到 TinyVideoNet
  4. 所有XP_SP2服务的详细介绍
  5. java中List<?>是什么意思?
  6. ios超级签名_ios超级签名多少钱?决定超级签名价格的因素有哪些
  7. python3.8编程实例_Python3.8动态人脸识别实例
  8. oracle中表空间实例,oracle的表空间实例详解
  9. HDU 1251 统计难题 (Trie)
  10. 针对英特尔xtu超频软件安装失败以及英伟达GeForce Experience安装程序无法继续的解决方法
  11. linux命令join的用法,linux join命令
  12. PostgreSQL 逻辑复制插件 UDR,可以愉快的玩类似MySQL的binlog复制了。
  13. 电脑和ubuntu开发板用网线连接的方法
  14. 邮件营销EDM(Email Direct Marketing) 运营笔记
  15. 【毕业设计】总结、展望及参考文献
  16. 嗅图狗——更新与反馈专贴
  17. 【nowcoder 219641】天使果冻
  18. 【5G NR】物理资源
  19. 数字人民币将如何改变金融生态?
  20. 跳点搜索算法 (JPS算法) 效率优化(摘录)

热门文章

  1. iScroll的相关使用
  2. 服务器提交任务和直接运行,实现简单服务器学习多线程与Executor
  3. ajax请求向服务器修改数据,用Jquery实现可编辑表格并用AJAX提交到服务器修改数据...
  4. 接口 java性能_MyPerf4J 一个极快的Java接口性能监控和统计工具
  5. 【Linux 命令学习第一天
  6. html 浏览器文档模式,调整:浏览器模式lE8十文档模式8是怎样操作
  7. 计算机网络-自顶向下方法(7th) 第一章 Problems 中英对照
  8. mysql 导出dmp文件_PLSQL Developer导入导出表数据结构
  9. English——视频总结(一)
  10. 使用arttemplate js模板引擎,直接用模板渲染,减少字符串拼接。