分类 classification

在目前的机器学习工作中，最常见的三种任务就是：

回归分析
分类分析
聚类分析

什么是「分类」

虽然我们人类都不喜欢被分类，被贴标签，但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准，我们得到的结果就越有价值。

分类是一个有监督的学习过程，目标数据库中有哪些类别是已知的，分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息，并且所有待分类的数据条目都默认有对应的类别。

分类分为两种：

二元分类：当我们必须将给定数据分类为 2 个不同的类时。示例——根据一个人的特定健康状况，我们必须确定该人是否患有某种疾病。
多类分类：类的数量超过2。例如——根据不同种类的花的数据，我们必须确定我们的观察属于哪个种类。

区分「聚类」与「分类」

分类的目的是为了确定一个点的类别，具体有哪些类别是已知的，常用的算法是 KNN (k-nearest neighbors algorithm)，是一种有监督学习。聚类的目的是将一系列点分成若干类，事先是没有类别的，常用的算法是 K-Means 算法，是一种无监督学习。

两者也有共同点，那就是它们都包含这样一个过程：对于想要分析的目标点，都会在数据集中寻找离它最近的点，即二者都用到了 NN (Nears Neighbor) 算法。

一维分类问题 1D Classifcation Problem

本例子中一共有8条数据，每条数据格式（花瓣长度，类别）。不难看出第一类花花瓣都小于4cm，第二类花花瓣都大于4cm。机器学习模型也会学到这个特征，进行预测。

对于连续的特征，一个明显的选择是高斯分布

首先了解机器学习中的特征类别：连续型特征和离散型特征

例子：连续特征 [4654.1313, 11, 0, 4564654, …]

离散特征[‘Ask’, ‘Jokes’, ‘politics’, ‘five’, ‘gaming’]

一元正态分布（一元高斯分布）

高斯函数的概率密度函数定义为

在数学中，连续型随机变量的概率密度函数是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。

数学期望为μ、方差为σ^2

正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布,记为N（0，1)

正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线。正态曲线呈钟型，两头低，中间高，左右对称，曲线与横轴间的面积总等于1。

σ描述正态分布资料数据分布的离散程度，σ越大，数据分布越分散，σ越小，数据分布越集中。也称为是正态分布的形状参数，σ越大，曲线越扁平，反之，σ越小，曲线越瘦高。

回到花卉分类问题，先把两类花卉近似看成高斯分布，并画出图像

对于一个新的测试数据点x，分别代入两个对应函数中去，哪个计算的输出最大，就分到其对应的类。

还可以测试数据点来自给定类的“可能性”有多大。可以相当于正确率去理解

Adding ‘Prior’ Knowledge

这里想表达的就是我们可以在分类的时候加入一些先前的经验。例如，在邮件分类的问题中，大部分的邮件是正常的只有少量邮件是垃圾邮件；包括这个问题中，大部分的花卉属于是Class0，少部分的花卉属于Class1，我们想把我们观察到的经验告诉机器，提高准确率，因此我们可以加一些权重来控制这个事情。

• We can encode this information as a weighting factor for each class,

应用机器学习 Applied Machine Learning (AML) ppt2相关推荐

Domain adaptation：连接机器学习（Machine Learning）与迁移学习（Transfer Learning）
domain adaptation(域适配)是一个连接机器学习(machine learning)与迁移学习(transfer learning)的新领域.这一问题的提出在于从原始问题(对应一个 so ...
Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”
Coursera公开课笔记: 斯坦福大学机器学习第十一课"机器学习系统设计(Machine learning system design)" 斯坦福大学机器学习斯坦福大学机器学习第 ...
Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python
本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...
机器学习（Machine Learning）大家
原文:http://blog.tianya.cn/blogger/post_read.asp?BlogID=272727&PostID=15814815 机器学习(Machine Learni ...
[转载] 跟着吴恩达学机器学习（Machine Learning） on Coursera 第一天
参考链接: Python线性回归的波士顿房屋Kaggle挑战 | 机器学习 Machine Learning 观看了吴恩达教授讲解的supervised and unsupervised learni ...
Splunk机器学习应用(Machine Learning Toolkit)
本文主要从 Splunk内置的命令和应用两个部分介绍了一些实用的机器学习的小诀窍,抛砖引玉,希望能和大家一起探讨如何让Splunk变得更加聪明. 1.概览机器学习可以简单地看作一个从数据中自动分析获 ...
机器学习（Machine Learning）入门科普
=======================国外==================== Machine Learning 大家(1):M. I. Jordan (http://www.cs.ber ...
机器学习（Machine Learning）——深度学习(Deep Learning)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...
机器学习（MACHINE LEARNING）Sklearn全高级使用（看不懂你来打我！）
文章目录 1 正规化 Normalization 1.1 数据标准化 1.2 数据标准化对机器学习成效的影响 2 检验神经网络 (Evaluation) 2.1 误差曲线 2.2 准确度曲线 2.3 ...

应用机器学习 Applied Machine Learning (AML) ppt2