机器学习特征工程之特征抽取

2024-06-02 05:12:36

1.数据集

数据集是特征抽取的源数据。常用数据集的结构组成：特征值+目标值。

可用数据集：

kaggle网址：http://www.kaggle.com/datasets
UCI数据集：http://archive.ics.uci.edu/ml
scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

数据中对于特征的处理

pandas：一个数据读取非常方便以及基本的处理格式的工具。
sklearn：对于特征的处理提供了强大的接口。

2.数据的特征工程

2.1 特征工程是什么？
特征工程是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性。

2.2 特征工程的意义是什么？
特征工程直接影响预测结果。

2.3 特征工程包含哪些步骤？
特征工程包括数据的特征抽取、数据的特征与处理和数据的降维（数据降维就是筛选样本特征，去掉不重要的样本特征）

2.4 scikit-learn库介绍

python语言的机器学习工具。
scikit-learn包括许多致命的机器学习算法的实现。
scikit-learn文档完善，容易上手，丰富的API。

2.5 scikit-learn库的安装

3数据的特征抽取

特征抽取的目的是对文本进行特征值化（为了让计算机更好地理解数据）。

3.1字典特征抽取

作用：对字典数据进行特征值化将其转换为One-hot编码。
类：sklearn.feature_extraction.DicVectorizer

DicVectorizer语法：

流程：

One-hot编码分析

关于one-hot编码的学习可以参考一下文章：
详细详解One Hot编码-附代码
one hot 编码及数据归一化

3.2文本特征抽取

作用：对文本数据进行特征值化。
类：sklearn.feature_extraction.text.CountVectorizer

CountVectorizer语法

流程

统计所有文章中的所有的词，重复的词只看做一次。
对每篇文章，在词的列表里面进行统计每个词出现的次数。
单个英文字母或汉字不统计。

英文文章可以直接进行统计，中文的文章要先进行分词才能进行统计。

jieba分词

对中文进行分词处理，使用jieba分词。

特征抽取方式之词语占比

特征抽取方式之TF-IDF

TF-IDF（TfidfVectorizer）是分类机器学习算法的重要依据。

机器学习特征工程之特征抽取相关推荐

机器学习特征工程之连续变量离散化：聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
机器学习特征工程之连续变量离散化：等频分箱
机器学习特征工程之连续变量离散化:等频分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
机器学习特征工程之连续变量离散化：连续变量二值化（Binarizer）
机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...
机器学习特征工程之连续变量离散化：等宽分箱
机器学习特征工程之连续变量离散化:等宽分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
机器学习特征工程之特征缩放+无量纲化：数据标准化（StandardScaler）
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
机器学习特征工程之特征缩放+无量纲化：最小最大缩放（MinMaxScaler）
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
机器学习特征工程之特征缩放+无量纲化：最大绝对值缩放（MaxAbsScaler）
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
双样本T检验——机器学习特征工程相关性分析实战
最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...
机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

最新文章

热门文章