分类 classification

在目前的机器学习工作中,最常见的三种任务就是:

  1. 回归分析

  2. 分类分析

  3. 聚类分析

什么是「分类」

虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。

分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别。

分类分为两种:

  1. 二元分类:当我们必须将给定数据分类为 2 个不同的类时。示例——根据一个人的特定健康状况,我们必须确定该人是否患有某种疾病。

  2. 多类分类:类的数量超过2。例如——根据不同种类的花的数据,我们必须确定我们的观察属于哪个种类。

区分「聚类」与「分类」

分类的目的是为了确定一个点的类别,具体有哪些类别是已知的,常用的算法是 KNN (k-nearest neighbors algorithm),是一种有监督学习。聚类的目的是将一系列点分成若干类,事先是没有类别的,常用的算法是 K-Means 算法,是一种无监督学习。

两者也有共同点,那就是它们都包含这样一个过程:对于想要分析的目标点,都会在数据集中寻找离它最近的点,即二者都用到了 NN (Nears Neighbor) 算法。

一维分类问题 1D Classifcation Problem

本例子中一共有8条数据,每条数据格式(花瓣长度,类别)。不难看出第一类花花瓣都小于4cm,第二类花花瓣都大于4cm。机器学习模型也会学到这个特征,进行预测。

对于连续的特征,一个明显的选择是高斯分布

首先了解机器学习中的特征类别:连续型特征和离散型特征

例子:连续特征 [4654.1313, 11, 0, 4564654, …]

离散特征[‘Ask’, ‘Jokes’, ‘politics’, ‘five’, ‘gaming’]

一元正态分布(一元高斯分布)

高斯函数的概率密度函数定义为

在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

数学期望为μ、方差为σ^2

正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布,记为N(0,1)

正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。

σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

回到花卉分类问题,先把两类花卉近似看成高斯分布,并画出图像

对于一个新的测试数据点x,分别代入两个对应函数中去,哪个计算的输出最大,就分到其对应的类。

还可以测试数据点来自给定类的“可能性”有多大。可以相当于正确率去理解

Adding ‘Prior’ Knowledge

这里想表达的就是我们可以在分类的时候加入一些先前的经验。例如,在邮件分类的问题中,大部分的邮件是正常的只有少量邮件是垃圾邮件;包括这个问题中,大部分的花卉属于是Class0,少部分的花卉属于Class1,我们想把我们观察到的经验告诉机器,提高准确率,因此我们可以加一些权重来控制这个事情。

• We can encode this information as a weighting factor for each class,

应用机器学习 Applied Machine Learning (AML) ppt2相关推荐

  1. Domain adaptation:连接机器学习(Machine Learning)与迁移学习(Transfer Learning)

    domain adaptation(域适配)是一个连接机器学习(machine learning)与迁移学习(transfer learning)的新领域.这一问题的提出在于从原始问题(对应一个 so ...

  2. Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”

    Coursera公开课笔记: 斯坦福大学机器学习第十一课"机器学习系统设计(Machine learning system design)" 斯坦福大学机器学习斯坦福大学机器学习第 ...

  3. Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python

    本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...

  4. 机器学习(Machine Learning)大家

    原文:http://blog.tianya.cn/blogger/post_read.asp?BlogID=272727&PostID=15814815 机器学习(Machine Learni ...

  5. [转载] 跟着吴恩达学机器学习(Machine Learning) on Coursera 第一天

    参考链接: Python线性回归的波士顿房屋Kaggle挑战 | 机器学习 Machine Learning 观看了吴恩达教授讲解的supervised and unsupervised learni ...

  6. Splunk机器学习应用(Machine Learning Toolkit)

    本文主要从 Splunk内置的命令和应用两个部分介绍了一些实用的机器学习的小诀窍,抛砖引玉,希望能和大家一起探讨如何让Splunk变得更加聪明. 1.概览 机器学习可以简单地看作一个从数据中自动分析获 ...

  7. 机器学习(Machine Learning)入门科普

    =======================国外==================== Machine Learning 大家(1):M. I. Jordan (http://www.cs.ber ...

  8. 机器学习(Machine Learning)——深度学习(Deep Learning)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...

  9. 机器学习(MACHINE LEARNING)Sklearn全高级使用(看不懂你来打我!)

    文章目录 1 正规化 Normalization 1.1 数据标准化 1.2 数据标准化对机器学习成效的影响 2 检验神经网络 (Evaluation) 2.1 误差曲线 2.2 准确度曲线 2.3 ...

最新文章

  1. Unix Domain Socket 域套接字实现
  2. java db 10.4.13_Spring Data MongoDB 1.10.13和Mongo 3.4
  3. extern c用法解析
  4. Matlab | Matlab从入门到放弃(2)——索引
  5. nginx mysql设置远程连接超时_nginx中的超时设置
  6. 我的软件工程课程目标
  7. PHP编辑器PhpStrom运行缓慢问题
  8. python3 selenium安装教程_Python3爬虫利器之Selenium的安装
  9. 重学java基础第二十三课:java基础 注释
  10. Flutter布局锦囊---圆框的表单字段
  11. 已知原函数和导函数的关系_根据函数表达式该如何求函数值
  12. android+gps+定位+缓存,Android GPS和Network定位
  13. 混合线性模型笔记1:模型假定
  14. Qt 图片自适应QLabel大小
  15. C语言:二维数组及其定义
  16. 笔记本cpu天梯图2022
  17. TCP四次挥手及原因
  18. java空指针异常是什么、怎么发生、如何处理
  19. nest中文文档_如何将Nest Cam事件记录到Google文档电子表格
  20. 热天的阅读日志,真的好热

热门文章

  1. Python网络数据采集知识点
  2. 试题 历届真题 全球变暖【第九届】【省赛】【B组】2018年 第9届 蓝桥杯 Java
  3. 硬盘卡住磁头的解决办法
  4. 客户关系管理项目——客户管理模块设计
  5. iOS音频编程之实时语音通信
  6. Web APIs第01天笔记——Web API介绍
  7. Unity 2021.1.15 ARCore环境配置与样例开发
  8. python进行机器学习(四)之模型验证与参数选择
  9. GXOI/GZOI2019 逼死强迫症 题解
  10. CSS兄弟选择器(选择所有兄弟姐妹)