机器学习算法-监督/无监督

机器学习的主要任务：

分类：将实例数据划分到某一类别
回归：根据现有的数据特征预测数值型的数据

如何选择合适的算法
（1）确定算法的类型：监督[—预测目标变量的值—] / 无监督
（2）若是监督算法，明确目标变量的类型，离散型 ——>分类；连续型——>回归
（3）若是无监督算法，使用聚类将数据划分为离散的组，使用密度估计算法估计数据与每个组的相似程度
（4）考虑数据：理解数据特征

开发应用程序的步骤

数据的收集
输入数据：特定的数据格式
分析数据
输入数据至算法
评估算法

有监督学习：

分类算法
1、K-近邻算法
测量不同特征值之间的距离方法进行分类；如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的实例中的大多数属于某一个类别，则该样本也属于这个类别
K值的选择：通过交叉验证法
实现
对未知类别属性的数据集中的每个点依次执行以下操作：

①计算已知类别数据集中的点与当前点之间的距离（k-近邻算法常用欧氏距离和马氏距离）；

②按照距离递增次序排序；

③选取与当前点距离最小的k个点；

④确定前k个点所在类别的出现频率；

⑤返回前k个点出现频率最高的类别作为当前点的预测分类。

2、决策树
决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
决策树的一般流程

①收集数据：可以使用任何方法。

②准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。

③分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。

④训练算法：构造树的数据结构。

⑤测试算法：使用经验树计算错误率。

⑥使用算法：使用决策树可以更好地理解数据的内在含义。
3、支持向量机（Kernel Methods）

支持向量机可以分析数据，识别模式，用于分类和回归分析。给定一组训练样本，每个标记为属于两类，一个SVM训练算法建立了一个模型，分配新的实例为一类或其他类，使其成为非概率二元线性分类

SVM的一般流程

① 收集数据：可以使用任意方法。

② 准备数据：需要数值型数据。

③ 分析数据：有助于可视化分隔超平面。

④ 训练算法：SVM的大部分时间都源自训练，该过程主要实现两个参数的调优。

⑤ 测试算法：十分简单的计算过程就可以实现。

⑥ 使用算法：几乎所有分类问题都可以使用SVM，SVM本身是一个二类分类器。

4、朴素贝叶斯算法
贝叶斯分类是一系列分类算法的总称；朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。独立性假设是指一个词的出现概率并不依赖于文档中的其他词
朴素贝叶斯的一般流程

①收集数据：可以使用任何方法。

②准备数据：需要数值型或者布尔型数据。

③分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。

④训练算法：计算不同的独立特征的条件概率。

⑤测试算法：计算错误率。

⑥使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。
5、随机森林

回归分析
1、线性回归和最小二乘法
2、逻辑回归
是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域；发生概率除以没有发生概率再取对数；这种变换往往使得因变量和自变量之间呈线性关系

Logistic 回归的一般流程

①收集数据：采用任意方法收集数据。

②准备数据：由于需要进行距离计算，因此要求数据类型为数值型。

③分析数据：采用任意方法对数据进行分析。

④训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。

⑤测试算法：一旦训练步骤完成，分类将会很快。

⑥使用算法：首先需要输入一些数据，并将其转换成对应的结构化数值；接着，基于训练好的回归系数可以对这些数值进行简单的回归计算，判定它们属于哪个类别，最后，我们就可以在输出的类别上做一些其他分析工作

6、Adaboost
自举汇聚法（bootstrap aggregating），也称为bagging方法，是在从原始数据集选择n次后得到n个新数据集的一种技术；新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择同一样本。这一性质就允许新数据集中可以有重复的值，而原始数据集的某些值在新集合中则不再出现。在n个数据集建好之后，将某个学习算法分别作用于每个数据集就得到了n个分类器。当我们要对新数据进行分类时，就可以应用这n个分类器进行分类。与此同时，选择分类器投票结果中最多的类别作为最后的分类结果

bagging：不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练出的分类器的性能来进行训练。分类器权重一样
boosting：通过集中关注被已有分类器错分的那些数据来获得新的分类器。分类的结果是基于所有分类器的加权求和结果的；分类器权重不一样，每个权重代表的是其对应分类器在上一轮迭代中的成功度
Adaboost ：AdaBoost算法的一般流程

①收集数据：可以使用任意方法。

②准备数据：依赖于所使用的弱分类器类型，如果是单层决策树，可以处理任何数据类型。

③分析数据：可以使用任意方法。

④训练算法：AdaBoost的大部分时间都用在训絲上，分类器将多次在同一数据集上训练弱分类器。

⑤测试算法：计算分类的错误率。

⑥使用算法：同SVM一样，AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合，那么就要像多类SVM中的做法一样对AdaBoost进行修改。

无监督学习

(1) 一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。

(2) 另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别

1、K-means聚类
2、关联规则
提取那些能解释观察到的变量之间的数据关系的规则，这些规则可以用于在大型多维数据集里，
① 第一阶段为从海量原始数据中找出所有的高频项目组;
② 第二阶段为从这些高频项目组产生关联规则

Apriori 算法
Eclat 算法

3、最大期望算法
4、DBSCAN
5、Parzen窗设计