记录数据挖掘路上遇到的常用特征工程方法和技巧(附代码),方便自己,方便他人,持续更新。

1.哑编码

对某一列数据进行pandas自带的(定性数据哑编码,定量数据二值化),并附上名字

pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')

2.卡方特征选择

从已有的特征中选择出影响目标值最大的特征属性

常用方法:{ 分类:F统计量、卡方系数,互信息mutual_info_classif

{ 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif

ch2 = SelectKBest(chi2,k=10)

X_train = ch2.fit_transform(X_train, Y_train)

X_test = ch2.transform(X_test)

print(ch2.get_support(indices=True))

3.PCA降维进行特征选择

pca = PCA(n_components=0.9)

X_train = pca.fit_transform(X_train)

X_test = pca.transform(X_test)

4.特征多项式扩展

pf=PolynomialFeatures(degree=2, interaction_only=True, include_bias=True)

x_train=pf.fit_transform(x_train)

x_test=pf.transform(x_test)

5.缺失值填充

6.数据标准化

7.连续特征离散化

8.word2vec

9.TF-IDF

python特征工程意义_python数据挖掘--特征工程篇(附代码)相关推荐

  1. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

  2. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  3. 带你入门Python数据挖掘与机器学习(附代码、实例)

    作者:韦玮 来源:Python爱好者社区 本文共7800字,建议阅读10+分钟. 本文结合代码实例待你上手python数据挖掘和机器学习技术. 本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 ...

  4. 入门Python数据挖掘与机器学习(附代码、实例)

    本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 2. Python数据预处理实战 3. 常见分类算法介绍 4. 对鸢尾花进行分类案例实战 5. 分类算法的选择思路与技巧 一.数据挖掘与机器学 ...

  5. python 写入第二列_python读写Excel表格的实例代码(简单实用)

    这篇文章主要介绍了python读写Excel表格的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下.需要先安装两个库:pip install xlrd.pip ...

  6. python贪吃蛇程序_Python 实现 贪吃蛇大作战 代码分享

    感觉游戏审核新政实施后,国内手游市场略冷清,是不是各家的新游戏都在排队等审核.媒体们除了之前竞相追捧<Pokemon Go>热闹了一把,似乎也听不到什么声音了.直到最近几天,突然听见好几人 ...

  7. python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码

    python打印直角三角形与等腰三角形实例代码 前言 本文通过示例给大家详细介绍了关于python打印三角形的相关,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧 1.直角三角形 #i ...

  8. 独家 | 使用Python实现机器学习特征选择的4种方法(附代码)

    作者:Sugandha Lahoti 翻译:李洁 校对:杨光 本文约3500字,建议阅读13分钟. 本文中,我们将研究从数据集中选择特征的不同方法;同时通过使用Python中Scikit-learn  ...

  9. python中soup_python中BeautifulSoup的详细介绍(附代码)

    本篇文章给大家带来的内容是关于python中BeautifulSoup的详细介绍(附代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. Beautiful Soup提供一些简单的. ...

最新文章

  1. seaborn使用violinplot函数可视化小提琴图、并在violinplot函数中设置inner参数来添加数据点显示数据的稠密程度
  2. 利用现有资源快速实现汉语专用分词系统
  3. Nginx之让用户通过用户名密码认证访问web站点
  4. emwin修改text字体颜色_Rggplot2 绘制带颜色条的相关性散点图
  5. QT使用之 手指滑动 | 物理惯性继续滑动动画的实现,根据不同速度实现不同动画效果
  6. Java 启动和停止界面_IntelliJ IDEA 2019.3 发布,启动更快,性能更好(新特性解读)...
  7. SecureCRT的自动登录和自动脚本记录功能图解
  8. 在mac上安装Docker
  9. 贪心 BestCoder Round #39 1001 Delete
  10. 你不知道的JavaScript(上中下三册) 电子版高清PDF -- 百度云下载
  11. 机械秒表的使用方法_秒表的使用方法?
  12. 一个受人称赞的站点应该用最实新的策略来优化
  13. 中国制药机械行业发展态势与运营展望分析报告2022版
  14. Java——聊聊JUC中的线程中断机制 LockSupport
  15. Java基于Socket实现简单QQ聊天详细教程
  16. sharelist+RaiDriver将阿里云盘映射到本地磁盘
  17. 计算机网口速率修改,win7系统修改无线网卡连接速率的操作方法
  18. 【MySQL必知必会--理论】
  19. SHGetFileInfo 报错 异常 问题
  20. js html 编辑器添加图片不显示,彻底解决ewebeditor网站后台不能上传图片的方法

热门文章

  1. ubuntu 16.04 Nginx源码部署安装
  2. 云服务器 ECS(CentOS) 安装 Node
  3. git 部分常用命令记录
  4. 【Python】下载所有 XKCD 漫画
  5. C语言最重要的知识点(电子文档)
  6. C#LeetCode刷题之#852-山脉数组的峰顶索引(Peak Index in a Mountain Array)
  7. C#LeetCode刷题之#443-压缩字符串​​​​​​​(String Compression)
  8. C#LeetCode刷题之#205-同构字符串(Isomorphic Strings)
  9. git 删除本地和远程分支_如何在本地和远程删除Git分支
  10. ctk 组件创建 ui_创建可重复使用的UI组件的提示和技巧