Georgia Tech - machine learning 学习笔记一

机器学习的分类

1.监督学习(supervised learning)

获取已标记的数据集，通过标记的数据集来收集信息，以便能标记新的数据集，也就是一个函数逼近的过程。

所有的机器学习，当然也包括监督学习，都与归纳而非演绎有关。归纳很重要，归纳偏差也很重要。

监督学习就是一个从训练样本--> 泛化函数-->测试样本的一个过程。

2. 非监督学习 (unsupervised learning)

没有训练样本，只有类似一堆输入的数据的东西，必须通过查看输入数据本身之间的关系去推导出某些结构。

3. 增强学习(reinforcement learning)

通过延迟奖赏进行学习，决策后，可能经过几个步骤后才能产生返回

机器学习->监督学习

分类和回归

classification : 分类是一个获取某类输入的过程，根据输入映射为离散的标签。比如输入是一幅幅的照片，判断分类为：男,女。

regression : 回归是根据一些点，拟合出一个线(函数)，然后给出一个x ,求对应的y的过程。回归处理的是连续的函数。可以想象成：二维坐标系里，给出一些点，画出拟合的曲线，然后求新点x的y值。

分类和回归的区别：

分类：从某种输入映射到少量的离散的值。

回归：从某种输入空间映射到实际的数值。

是分类还是回归，关键在于输出是小的离散集，还是连续集。两者的区别和输入无关，只和输出相关。输出是连续的，则为回归，离散的，则为分类。

机器学习->监督学习->分类学习 (classification learning)

首先还是基本概念

instance: 即input

实例定义了输入空间，可以是照片，及构成照片的全部像素。(即要了解的事物的集合)

concept: 即function(映射)

概念就是事物之间的映射函数，或映射关系。以及一个集合中的成员关系(描述如何进行映射)。比如教会机器关于动物”概念“，机器根据动物这个“概念”对物体分类。

target concept: 即answer.

target concept和一般concept的区别是，目标概念才是我们要得到的东西，是实际的答案。也就是决定某个东西是不是汽车，是公是母的函数。找到了target concept,我可以说，我脑子有关于汽车，公母概念的认知。单除非经过书面的确认，否则我不知道这种认知是否正确。将输入映射到输出的所有concept中必定有我们要找到的target concept.

hypothesis: 即hypothesis class.

假设类就是愿意考虑的所有概念的集合,即愿意考虑的所有函数,原话:(all functions i willing to consider)；世界上所有的可能的函数(all possible function)，即所有完美合理的假设类，但是得到这种集合非常难，特别是在给定的数据有限的前提下。

Sample: 即Training set

由所有的输入(比如人的照片)和正确的输出(即与之配对的标签)组成的集合。比如：[{"有头发":T},{"光头":F},...],大量的输入输出对的实例即为一个训练集，这也是机器弄明白什么是正确的概念或函数的依据。

比如，你对机器解释何为"高"这一概念，但是你并没给一个标准，不告诉"高"的含义，只是给了一堆例子：这个为高，那个不高，等等，这就是对机器解释目标概念的形式，即归纳学习法。

candidate:

是一个你认为可能会是目标概念的概念。

Testing : 即Testing set.

类似于Training set, 但是我们使用Testing set去测试candidate, 使用training set 去学习。不能使用training set 去测试，否则就是作弊。

training set中应该有许多的示例，testing set 中应包含许多training set中没有的示例。一个成功的candidate必须可以泛化，泛化才是机器学习的关键

转载于:https://www.cnblogs.com/shonelau/p/6379030.html

Georgia Tech - machine learning 学习笔记一相关推荐

【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现
[Machine Learning 学习笔记]Stochastic Dual Coordinate Ascent for SVM 代码实现通过本篇博客记录一下Stochastic Dual Coor ...
【Machine Learning 学习笔记】feature engineering中noisy feature的影响
[Machine Learning 学习笔记]feature engineering中noisy feature的影响通过本篇博客记录一下添加噪声对Lasso和SVM的影响,采用的数据集为sklea ...
[Python Machine Learning] 学习笔记之scikit-learn机器学习库
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最 ...
Machine Learning 学习笔记1 - 基本概念以及各分类
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50 ...
IBM Machine Learning学习笔记（一）——Exploratory Data Analysis for Machine Learning
数据的探索性分析 1. 读入数据 (1)csv文件读取 (2)json文件读取 (3)SQL数据库读取 (4)Not-only SQL (NoSQL)读取 (5)从网络中获取 2. 数据清洗 (1)缺 ...
Machine Learning学习笔记（十）K-means聚类算法
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一.它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高:而不同聚类中的对象相似度较小.其聚类 ...
IBM Machine Learning学习笔记（二）——Supervised Learning: Regression
文章目录一.Introduction to Supervised Machine Learning 二.Data Splits and Cross Validation 三.Regression w ...
Machine Learning学习笔记（四）EML极限学习机
EML定义极限学习机器( Extreme Learning Machine,ELM) 是神经网络研究中的一种算法,是一种泛化的单隐层前馈神经网络( Single-hidden Layer Feed ...
machine learning学习笔记
1. 做classfication 时候一定要将label 取成是balanced的,也就是一比一的比例,因为如果不是一比一的比例的话,举个极端一点的例子:如果pos:neg label目前是9:1的 ...

Georgia Tech - machine learning 学习笔记一

Georgia Tech - machine learning 学习笔记一相关推荐

最新文章

热门文章