声明：这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记，整理出来与大家一起分享，若笔记中有任何错误还请不吝指出，文中可能会使用到原作者的一些图，若侵犯到作者的权益，还请告知，我会删除，谢谢。

一、机器学习的流程

应用机器学习算法的流程大致可以分为：

收集数据
数据处理，提取特征
训练模型
模型部署
模型的应用及反馈

具体的衔接关系如下图所示：

二、机器学习的关键问题

在机器学习中主要有如下的三个关键问题：

特征=对原始数据的数值表示
模型=对特征的数学总结
成功的应用=对于给定的数据和任务选择合适的模型和特征

1、特征

特征是对原始数据的抽象，是原始数据的抽象表示，通过使用数值表示原始数据。

1.1、文本的特征化

对于文本，通常使用的是Bag of Words词袋模型表示特征，即将文本映射成为一个词的向量，向量的长度是词典的大小，每一位表示词典中的一个词，向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本，其词向量通常是稀疏的。词袋模型如下图所示：

1.2、图像的特征化

对于彩色图像，每一个像素点是由RGB三元组组成的，同样可以可以使用类似词袋模型的Bag of Visual Words，如下图所示：

Bag of Visual Words中的每一个元素可以通过像素点的组合构成，从低维的特征到更高维的数据抽象，这便是深度学习的概念，如下图所示：

1.3、机器学习中的特征空间

从上述的特征提取中发现从原始数据中提取特征是将原始数据映射到一个更高维的空间，特征空间中的特征是对原始数据更高维的抽象。特征工程主要需要解决的问题是对具体的问题构建出适合表示该问题的特征。

Feature engineering = creating features of the appropriate granularity for the task

2、特征空间的可视化

在PPT中引用了如下的一段话：

Crudely speaking, mathematicians fall into two categories:the algebraists, who find it easiest to reduce all problems to sets of numbers and variables, and the geometers, who understand the world through shapes.– Masha Gessen, “Perfect Rigor”

这段话的大概意思是说，数学可以分为两个类别，一是代数，即将问题转换成许多组的数和变量；另一个则是几何，即通过图形的方法理解身边的事物。

例如对于上述的词袋模型，可以将每个词表示成一个维度，如下图的两个维度(cute，puppy)：

如果此时的维度升高到三维(cute，puppy，extremely)，此时的特征空间可表示为下图：

3、模型

模型是对特征的一种数学的总结，是指对特征进行的一种数学的表达。对于分类模型，以二分类为例，主要是要找到一个分隔超平面将特征空间分成两个类，如下图所示：

对于聚类模型，通过对特征空间中的特征实施某种相似性的度量，将相似的特征聚在一起，便达到了聚类的目的，如下图所示：

对于回归问题，需要找到最合适的方式去拟合样本空间中的样本点，如下图所示：

4、特征工程的可视化

对于如下的文本分类问题，文本分别为：

I have a puppy.
I have a cat.
I have a kitten.
I have a dog and I have a pen.

此时利用bag of words的文本特征处理方法，我们可以得到下面的图：

对于上述的文本分类问题而言，增加了”have”这一维的特征，对于问题(区分dog和cat)而言，是一个没有用的特征。我们希望能够选择出对于具体的问题具有重要贡献的词语，赋以更大的权重。可以使用词频-逆文本频率(Term Frequency-Inverse Document Frequency of word, ft-idf)，tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中，词频(tf)表示的是在文章中该词出现的次数，逆文本频率(idf)是一个词语普遍重要性的度量。tf-idf的主要思想是如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

idf的计算方法为：

log(DDw)

log\left ( \frac{D}{D_w} \right )

其中，DD表示所有文章的数目，DwD_w表示的包含词ww的文章的数目。则tf-idf的计算公式为：

tf−idf=tf×idf

tf-idf=tf\times idf

对于上述的问题，tf-idf表示下的图为：

通过上图，我们看出，这样便能将“dog”和“cat”区分开。

5、其他的一些主题

机器学习中还有一些其他的主题，包括：

特征的归一化
特征变化
模型的正则化
······

参考文献

《Understanding Feature Space in Machine Learning – Data Science Pop-up Seattle》Alice Zheng

若需要PDF版本，请关注我的新浪博客@赵_志_勇，私信你的邮箱地址给我。

机器学习中的特征空间相关推荐

机器学习中的数学基础（4.1）：支持向量机Support Vector Machine（SVM）
SVM可以说是一个很经典的二分类问题,属于有监督学习算法的一种.看过那么多的博客知乎解释SVM我一定要自己总结一篇,加深一下自己的理解. 带着问题去读文章会发现,柳暗花明又一村,瞬间李敏浩出现在眼前的 ...
一文介绍机器学习中的三种特征选择方法
作者 | luanhz 来源 | 小数志导读机器学习中的一个经典理论是:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.也正因如此,特征工程在机器学习流程中占有着重要地位.广义的特征 ...
【博士论文】机器学习中的标记增强理论与应用研究
来源:专知本文为论文,建议阅读5分钟本文对标记增强进行研究. 来自东南大学徐宁的博士论文,入选2021年度"CCF优秀博士学位论文奖"初评名单! https://www.ccf. ...
机器学习中的特征——特征选择的方法以及注意点
机器学习中的特征--特征选择的方法以及注意点 https://blog.csdn.net/google19890102/article/details/40019271 关于机器学习中的特征我有话要说 ...
如何解决机器学习中数据不平衡问题
作者:无影随想时间:2016年1月. 出处:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.h ...
机器学习集群_机器学习中的多合一集群技术在无监督学习中应该了解
机器学习集群 Clustering algorithms are a powerful technique for machine learning on unsupervised data. The ...
如何解决机器学习中数据不平衡问题(转)
作者:无影随想时间:2016年1月. 出处:http://www.zhaokv.com/2016/01/learning-from-imbalanced-data.html 这几年来,机器学习和 ...
机器学习中的评估指标与损失函数
1. 写在前面在准备找工作面试时, 发现机器学习中的评估指标和损失函数是一个经常要问题的话题, 对于一个算法工程师,衡量模型的好坏以及怎么根据出现的问题进行调整是必备的技能,损失函数代表着模型的优化 ...
机器学习中特征选择概述
1. 背景 1.1 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: (1) 特征个数越多,分析特征.训练模型所需的时间就越长, ...

机器学习中的特征空间