应用机器学习 Applied Machine Learning (AML) ppt2
分类 classification
在目前的机器学习工作中,最常见的三种任务就是:
回归分析
分类分析
聚类分析
什么是「分类」
虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。
分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别。
分类分为两种:
二元分类:当我们必须将给定数据分类为 2 个不同的类时。示例——根据一个人的特定健康状况,我们必须确定该人是否患有某种疾病。
多类分类:类的数量超过2。例如——根据不同种类的花的数据,我们必须确定我们的观察属于哪个种类。
区分「聚类」与「分类」
分类的目的是为了确定一个点的类别,具体有哪些类别是已知的,常用的算法是 KNN (k-nearest neighbors algorithm),是一种有监督学习。聚类的目的是将一系列点分成若干类,事先是没有类别的,常用的算法是 K-Means 算法,是一种无监督学习。
两者也有共同点,那就是它们都包含这样一个过程:对于想要分析的目标点,都会在数据集中寻找离它最近的点,即二者都用到了 NN (Nears Neighbor) 算法。
一维分类问题 1D Classifcation Problem
本例子中一共有8条数据,每条数据格式(花瓣长度,类别)。不难看出第一类花花瓣都小于4cm,第二类花花瓣都大于4cm。机器学习模型也会学到这个特征,进行预测。
对于连续的特征,一个明显的选择是高斯分布
首先了解机器学习中的特征类别:连续型特征和离散型特征
例子:连续特征 [4654.1313, 11, 0, 4564654, …]
离散特征[‘Ask’, ‘Jokes’, ‘politics’, ‘five’, ‘gaming’]
一元正态分布(一元高斯分布)
高斯函数的概率密度函数定义为
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
数学期望为μ、方差为σ^2
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布,记为N(0,1)
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
回到花卉分类问题,先把两类花卉近似看成高斯分布,并画出图像
对于一个新的测试数据点x,分别代入两个对应函数中去,哪个计算的输出最大,就分到其对应的类。
还可以测试数据点来自给定类的“可能性”有多大。可以相当于正确率去理解
Adding ‘Prior’ Knowledge
这里想表达的就是我们可以在分类的时候加入一些先前的经验。例如,在邮件分类的问题中,大部分的邮件是正常的只有少量邮件是垃圾邮件;包括这个问题中,大部分的花卉属于是Class0,少部分的花卉属于Class1,我们想把我们观察到的经验告诉机器,提高准确率,因此我们可以加一些权重来控制这个事情。
• We can encode this information as a weighting factor for each class,
应用机器学习 Applied Machine Learning (AML) ppt2相关推荐
- Domain adaptation:连接机器学习(Machine Learning)与迁移学习(Transfer Learning)
domain adaptation(域适配)是一个连接机器学习(machine learning)与迁移学习(transfer learning)的新领域.这一问题的提出在于从原始问题(对应一个 so ...
- Coursera公开课笔记: 斯坦福大学机器学习第十一课“机器学习系统设计(Machine learning system design)”
Coursera公开课笔记: 斯坦福大学机器学习第十一课"机器学习系统设计(Machine learning system design)" 斯坦福大学机器学习斯坦福大学机器学习第 ...
- Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python
本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...
- 机器学习(Machine Learning)大家
原文:http://blog.tianya.cn/blogger/post_read.asp?BlogID=272727&PostID=15814815 机器学习(Machine Learni ...
- [转载] 跟着吴恩达学机器学习(Machine Learning) on Coursera 第一天
参考链接: Python线性回归的波士顿房屋Kaggle挑战 | 机器学习 Machine Learning 观看了吴恩达教授讲解的supervised and unsupervised learni ...
- Splunk机器学习应用(Machine Learning Toolkit)
本文主要从 Splunk内置的命令和应用两个部分介绍了一些实用的机器学习的小诀窍,抛砖引玉,希望能和大家一起探讨如何让Splunk变得更加聪明. 1.概览 机器学习可以简单地看作一个从数据中自动分析获 ...
- 机器学习(Machine Learning)入门科普
=======================国外==================== Machine Learning 大家(1):M. I. Jordan (http://www.cs.ber ...
- 机器学习(Machine Learning)——深度学习(Deep Learning)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...
- 机器学习(MACHINE LEARNING)Sklearn全高级使用(看不懂你来打我!)
文章目录 1 正规化 Normalization 1.1 数据标准化 1.2 数据标准化对机器学习成效的影响 2 检验神经网络 (Evaluation) 2.1 误差曲线 2.2 准确度曲线 2.3 ...
最新文章
- Unix Domain Socket 域套接字实现
- java db 10.4.13_Spring Data MongoDB 1.10.13和Mongo 3.4
- extern c用法解析
- Matlab | Matlab从入门到放弃(2)——索引
- nginx mysql设置远程连接超时_nginx中的超时设置
- 我的软件工程课程目标
- PHP编辑器PhpStrom运行缓慢问题
- python3 selenium安装教程_Python3爬虫利器之Selenium的安装
- 重学java基础第二十三课:java基础 注释
- Flutter布局锦囊---圆框的表单字段
- 已知原函数和导函数的关系_根据函数表达式该如何求函数值
- android+gps+定位+缓存,Android GPS和Network定位
- 混合线性模型笔记1:模型假定
- Qt 图片自适应QLabel大小
- C语言:二维数组及其定义
- 笔记本cpu天梯图2022
- TCP四次挥手及原因
- java空指针异常是什么、怎么发生、如何处理
- nest中文文档_如何将Nest Cam事件记录到Google文档电子表格
- 热天的阅读日志,真的好热