由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(国内译作《精通特征工程》)一书,可以说是特征工程的宝典,本文在知名开源apachecn组织翻译的英文版基础上,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过。这个资料可以说是特征工程的宝典,值得推荐。

资料说明

《Feature Engineering for Machine Learning》由知名开源apachecn组织翻译,原版英文书可以在网上试读(免费读10天),试读地址:

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

这本书可以说是特征工程的宝典,值得推荐。

本站在得到apachecn同意后,对翻译版本进行了润色和代码实现,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过,同时所有数据集已经放在百度云下载。

翻译代码放在数据科学的github仓库提供下载,仓库地址:

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

备注:本文的翻译版本与人民邮电出版社出版的《精通特征工程》有所不同,属于独立完成。

文件目录

  • 一、引言

  • 二、简单数字的奇特技巧

  • 三、文本数据:展开、过滤和分块

  • 四、特征缩放的效果:从词袋到 TF-IDF

  • 五、类别特征:机器鸡时代的鸡蛋计数

  • 六、降维:使用 PCA 压缩数据集

  • 七、非线性特征提取和模型堆叠

  • 八、自动化特征提取器:图像特征提取和深度学习

  • 九、回到特征:将它们放到一起(更新中)

  • 附录、线性模型和线性代数基础

内容简介

第 1 章从数字数据的基本特征工程开始:过滤,合并,缩放,日志转换和能量转换以及交互功能。

第 2 章和第 3 章深入探讨了自然文本的特征工程:bag-of-words,n-gram 和短语检测。

第 4 章将 tf-idf 作为特征缩放的例子,并讨论它的工作原理。

第 5 章讨论分类变量的高效编码技术,包括特征哈希和 bin-counting。

第 6 章中进行主成分分析,我们深入机器学习的领域。

第 7 章将 k-means 看作一种特征化技术,它说明了模型堆叠的有效理论。

第 8 章都是关于图像的,在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前,我们着眼于两种手动特征提取技术 SIFT 和 HOG。

第 9 章中完成了一个端到端示例中的几种不同技术,为学术论文数据集创建了一个推荐器。

内容截图

总结

本文将《Feature Engineering for Machine Learning》修改成jupyter notebook格式,测试全部通过,并提供下载。

翻译代码的仓库地址:

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

参考

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

https://github.com/alicezheng/feature-engineering-book

https://github.com/apachecn/feature-engineering-for-ml-zh

本站简介↓↓↓ 

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号(创始人:黄海广)

初学者入门的道路上,最需要的是“雪中送炭”,而不是“锦上添花”。

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一(上图二维码)

往期精彩回顾

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

  • 黄海广博士的github镜像下载(机器学习及深度学习资源)

  • 吴恩达老师的机器学习和深度学习课程笔记打印版

  • 机器学习小抄-(像背托福单词一样理解机器学习)

  • 首发:深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

  • 机器学习的数学基础

  • 机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

  • 吐血推荐收藏的学位论文排版教程(完整版)

  • Python代码写得丑怎么办?推荐几个神器拯救你

  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

  • 图解word2vec(原文翻译)

备注:本站qq群:865189078(共8个群,不用重复加)。

加入本站微信群,请加黄博的助理微信,说明:公众号用户加群。

特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现相关推荐

  1. 【机器学习实战】Machine Learning in Action 代码 视频 项目案例

    MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 ApacheCN - 学习机器学习群[629470233] Machine Learning in ...

  2. TensorFlow: A System for Large-Scale Machine Learning翻译

    TensorFlow: A System for Large-Scale Machine Learning 1.Abstract TensorFlow是在大规模和异构环境中运行的机器学习系统.  Te ...

  3. 【特征工程】词袋模型/TF-IDF模型/词汇表模型的代码实现(文本特征提取)

    文章目录 1.词袋模型 2.TF-IDF模型 3.词汇表模型 1.词袋模型 词集模型:单词构成的集合,集合中仅统计单词的有无,不统计具体单词的出现的次数 词袋模型:在词集模型的基础上,统计单词出现的次 ...

  4. 机器学习中的特征工程——分类变量的处理

    出品 | CDA数据分析研究院,转载需授权 文章目录 分类变量 概念 判断 类型 少类别分类变量处理方法 独热编码(One-hot encoding) 虚拟编码(Dummy coding) 效应编码( ...

  5. 特征工程系列学习(零)引言

    本文首发于微信公众号"计算机视觉cv" 特征工程   机器学习将数据拟合到数学模型中来获得结论或者做出预测.这些模型吸纳特征作为输入.特征就是原始数据某方面的数学表现.在机器学习流 ...

  6. 【特征工程】呕心之作——深度了解特征工程

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  7. Useful Things To Know About Machine Learning (机器学习中一些有用的知识)

    Useful Things To Know About Machine Learning 原文作者:Jason Brownlee 原文地址:https://machinelearningmastery ...

  8. 特征工程与自动特征工程

    目录 1. 什么是特征工程 2. 什么是自动特征工程 2.1 自动方法有哪些 3. 文献说明 4.参考文献 1. 什么是特征工程 特征工程,是指用一系列工程化的方式从原始数据中提取出更好的数据特征,以 ...

  9. 【特征工程】特征工程技术与方法

    引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特 ...

最新文章

  1. Android onclicklistener中使用外部类变量时为什么需要final修饰【转】
  2. Python的单引号、双引号和三引号的字符串
  3. python字典改键_python 字典修改键的几种方法
  4. nslookup type值_nslookup查询
  5. 【2014年计划】工作,学习两不误
  6. [C++][IO]读写二进制文件
  7. Flask简介与简单项目操作流程
  8. Intel Sandy Bridge/Ivy Bridge架构/微架构/流水线 (8) - 流水线前端/分支预测
  9. 设计模式学习笔记(1)——单例模式
  10. 【实习之T100开发】T100 双档程序开发流程
  11. qt 字体旋转90_如何识别图片和视频上文字的字体
  12. jgit git pull_使用JGit API探索Git内部
  13. java实训答辩ppt_基于JavaSwing的工作考勤管理系统设计与实现毕业论文+开题报告+实习报告+实习日历+答辩PPT+项目源码...
  14. RTP-RTCP协议分析
  15. 从程序员到项目经理(5):程序员加油站 -- 不是人人都懂的学习要点--------转自西西吹雪...
  16. sentinel 控制台讲解-降级规则-降级策略:RT
  17. 网站优化SEO关于TDK以及ALT标签的设置点
  18. TYVJ账号大公布!
  19. windows下使能/关闭硬件
  20. 操作系统实验三进程间通信

热门文章

  1. Spring MVC 错误
  2. Android 开发笔记___初级控件之实战__计算器
  3. SimpleAdapter的用法
  4. C++ stl 通用算法和成员函数使用
  5. 【郭林专刊】JSP中JSTL提供的函数标签EL表达式操作字符串的方法
  6. C++跨平台IDE之CodeBlocks
  7. android 内存播放视频播放器,视频流媒体播放器EasyPlayer-RTSP安卓版在RK3399上运行APP崩溃问题...
  8. JavaSE(二十四)——冒泡排序、选择排序、直接插入排序以及二分查找
  9. yabailv 运放_运放入门
  10. stm32 定时器_如何计算STM32定时器、独立看门狗和窗口看门狗