机器学习特征工程之特征抽取
1.数据集
数据集是特征抽取的源数据。常用数据集的结构组成:特征值+目标值。
可用数据集:
kaggle网址:http://www.kaggle.com/datasets
UCI数据集:http://archive.ics.uci.edu/ml
scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets
数据中对于特征的处理
pandas:一个数据读取非常方便以及基本的处理格式的工具。
sklearn:对于特征的处理提供了强大的接口。
2.数据的特征工程
2.1 特征工程是什么?
特征工程是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。
2.2 特征工程的意义是什么?
特征工程直接影响预测结果。
2.3 特征工程包含哪些步骤?
特征工程包括数据的特征抽取、数据的特征与处理和数据的降维(数据降维就是筛选样本特征,去掉不重要的样本特征)
2.4 scikit-learn库介绍
- python语言的机器学习工具。
- scikit-learn包括许多致命的机器学习算法的实现。
scikit-learn文档完善,容易上手,丰富的API。
2.5 scikit-learn库的安装
3数据的特征抽取
特征抽取的目的是对文本进行特征值化(为了让计算机更好地理解数据)。
3.1字典特征抽取
作用:对字典数据进行特征值化将其转换为One-hot编码。
类:sklearn.feature_extraction.DicVectorizer
DicVectorizer语法:
流程:
One-hot编码分析
关于one-hot编码的学习可以参考一下文章:
详细详解One Hot编码-附代码
one hot 编码及数据归一化
3.2文本特征抽取
作用:对文本数据进行特征值化。
类:sklearn.feature_extraction.text.CountVectorizer
CountVectorizer语法
流程
- 统计所有文章中的所有的词,重复的词只看做一次。
- 对每篇文章,在词的列表里面进行统计每个词出现的次数。
单个英文字母或汉字不统计。
英文文章可以直接进行统计,中文的文章要先进行分词才能进行统计。
jieba分词
对中文进行分词处理,使用jieba分词。
特征抽取方式之词语占比
特征抽取方式之TF-IDF
TF-IDF(TfidfVectorizer)是分类机器学习算法的重要依据。
机器学习特征工程之特征抽取相关推荐
- 机器学习特征工程之连续变量离散化:聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
- 机器学习特征工程之连续变量离散化:等频分箱
机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)
机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...
- 机器学习特征工程之连续变量离散化:等宽分箱
机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
- 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 双样本T检验——机器学习特征工程相关性分析实战
最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
最新文章
- MPB:扬大林淼组-瘤胃内容物样本中有机酸的定量分析 (高效液相色谱)
- 如何在 Linux 上永久挂载一个 Windows 共享
- Zend Optimizer 相关报错收集
- 这几年人工智能和大数据的真实就业规律
- .net core 生成二维码
- 分享一个开源的项目,数据结构和算法必知必会的50个代码实现
- Java分词处理测试
- 自然语言处理(八)——语言模型性能评价
- SuperMap GIS 10i大数据GIS 技术白皮书
- cloudMusic.mps的前世今坑
- 上位机软件定制开发,如何选择服务商
- 《资治通鉴》曾参三人成“真”、胡服骑射、吕不韦
- 小学信息技术 用计算机画画 教学目标,三年级下册信息技术教学计划4篇
- 计算个人所得税(老版)​​​​​​​
- Unity 多机器的视频不卡帧同步
- 电源常识-差模干扰共模干扰
- 教务系统模拟登录与成绩爬取一
- 分子偶极矩大小如何判断_怎么判断分子极性大小??
- 软件接口趣事:业务和技术人员眼中五彩斑斓的黑
- linux ls ',Linux ls命令 - Linux 教程 - 自强学堂
热门文章
- java设置xmlns xsi_xml文件中 xmlns xmlns:xsi 等解释
- 「HTML+CSS」--自定义加载动画【047】
- Golang json 中文marshal
- 隐私账号管理系统(c语言)
- uwb高精度定位技术应用分析,高精度定位服务为行业应用带来哪些价值?
- 美联储货币政策模棱两可,非美强弱不一
- HDU-1305-Immediate Decodability
- 三七互娱(后台开发)线下笔试题
- Vue源码分析--Vue.component
- 机器人机器学习环境框架搭建—从ubuntu到mujoco仿真实现(第一篇):ubuntu18.04的安装