Georgia Tech - machine learning 学习笔记一
机器学习的分类
1.监督学习(supervised learning)
获取已标记的数据集,通过标记的数据集来收集信息,以便能标记新的数据集,也就是一个函数逼近的过程。
所有的机器学习,当然也包括监督学习,都与归纳而非演绎有关。归纳很重要,归纳偏差也很重要。
监督学习就是一个 从训练样本--> 泛化函数-->测试样本 的一个过程。
2. 非监督学习 (unsupervised learning)
没有训练样本,只有类似一堆输入的数据的东西,必须通过查看输入数据本身之间的关系去推导出某些结构。
3. 增强学习(reinforcement learning)
通过延迟奖赏进行学习,决策后,可能经过几个步骤后才能产生返回
机器学习->监督学习
分类和回归
classification : 分类是一个获取某类输入的过程,根据输入映射为离散的标签。比如输入是一幅幅的照片,判断分类为:男,女。
regression : 回归是根据一些点,拟合出一个线(函数),然后给出一个x ,求对应的y的过程。回归处理的是连续的函数。可以想象成:二维坐标系里,给出一些点,画出拟合的曲线,然后求新点x的y值。
分类和回归的区别:
分类: 从某种输入映射到少量的离散的值。
回归:从某种输入空间映射到实际的数值。
是分类还是回归,关键在于输出是小的离散集,还是连续集。两者的区别和输入无关,只和输出相关。输出是连续的,则为回归,离散的,则为分类。
机器学习->监督学习->分类学习 (classification learning)
首先还是基本概念
instance: 即input
实例定义了输入空间,可以是照片,及构成照片的全部像素。(即要了解的事物的集合)
concept: 即function(映射)
概念就是事物之间的映射函数,或映射关系。以及一个集合中的成员关系(描述如何进行映射)。比如教会机器关于动物”概念“,机器根据动物这个“概念”对物体分类。
target concept: 即answer.
target concept和一般concept的区别是,目标概念才是我们要得到的东西,是实际的答案。也就是决定某个东西是不是汽车,是公是母的函数。找到了target concept,我可以说,我脑子有关于汽车,公母概念的认知。单除非经过书面的确认,否则我不知道这种认知是否正确。将输入映射到输出的所有concept中必定有我们要找到的target concept.
hypothesis: 即hypothesis class.
假设类 就是愿意考虑的所有概念的集合,即愿意考虑的所有函数,原话:(all functions i willing to consider); 世界上所有的可能的函数(all possible function),即所有完美合理的假设类,但是得到这种集合非常难,特别是在给定的数据有限的前提下。
Sample: 即Training set
由所有的输入(比如人的照片)和正确的输出(即与之配对的标签)组成的集合。比如:[{"有头发":T},{"光头":F},...],大量的输入输出对的实例即为一个训练集,这也是机器弄明白什么是正确的概念或函数的依据。
比如,你对机器解释何为"高"这一概念,但是你并没给一个标准,不告诉"高"的含义,只是给了一堆例子: 这个为高,那个不高,等等,这就是对机器解释目标概念的形式,即归纳学习法。
candidate:
是一个你认为可能会是目标概念的概念。
Testing : 即Testing set.
类似于Training set, 但是我们使用Testing set去测试candidate, 使用training set 去学习。 不能使用training set 去测试,否则就是作弊。
training set中应该有许多的示例,testing set 中应包含许多training set中没有的示例。一个成功的candidate必须可以泛化,泛化才是机器学习的关键
转载于:https://www.cnblogs.com/shonelau/p/6379030.html
Georgia Tech - machine learning 学习笔记一相关推荐
- 【Machine Learning 学习笔记】Stochastic Dual Coordinate Ascent for SVM 代码实现
[Machine Learning 学习笔记]Stochastic Dual Coordinate Ascent for SVM 代码实现 通过本篇博客记录一下Stochastic Dual Coor ...
- 【Machine Learning 学习笔记】feature engineering中noisy feature的影响
[Machine Learning 学习笔记]feature engineering中noisy feature的影响 通过本篇博客记录一下添加噪声对Lasso和SVM的影响,采用的数据集为sklea ...
- [Python Machine Learning] 学习笔记之scikit-learn机器学习库
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最 ...
- Machine Learning 学习笔记1 - 基本概念以及各分类
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50 ...
- IBM Machine Learning学习笔记(一)——Exploratory Data Analysis for Machine Learning
数据的探索性分析 1. 读入数据 (1)csv文件读取 (2)json文件读取 (3)SQL数据库读取 (4)Not-only SQL (NoSQL)读取 (5)从网络中获取 2. 数据清洗 (1)缺 ...
- Machine Learning学习笔记(十)K-means聚类算法
K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一.它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高:而不同聚类中的对象相似度较小.其聚类 ...
- IBM Machine Learning学习笔记(二)——Supervised Learning: Regression
文章目录 一.Introduction to Supervised Machine Learning 二.Data Splits and Cross Validation 三.Regression w ...
- Machine Learning学习笔记(四)EML极限学习机
EML定义 极限学习机器( Extreme Learning Machine,ELM) 是神经网络研究中的一种算法,是一种泛化的单隐层前馈神经网络( Single-hidden Layer Feed ...
- machine learning学习笔记
1. 做classfication 时候一定要将label 取成是balanced的,也就是一比一的比例,因为如果不是一比一的比例的话,举个极端一点的例子:如果pos:neg label目前是9:1的 ...
最新文章
- GTA 5 + AI = ?
- eclipse配置maven及查看对应maven配置文件settings.xml的地方
- 大数据笔记2019.5.10
- JavaScript知识总结
- python3 字典添加_python3字典删除元素和添加元素的几种方法
- jquery 获取 id ,但是id 里面不能有. 这个符号
- idea报错:Error: java: 错误: 不支持发行版本 5
- c语言指针经典例,C语言指针应用简单实例
- 什么是chirp信号
- Visual Basic6.0下载及安装
- 打游戏用什么蓝牙耳机好?英雄联盟手游推荐蓝牙耳机
- python文件或目录损坏且无法读取,data\sogoupy\verify.ini已损坏且无法读取,啥意思?谢谢?...
- CentOS 7.6安装配置MariaDB异步主从复制
- WIN10鼠标乱跳问题解决办法
- 西湖论剑2020writeup
- 网吧组建及相关技术(无盘技术;VLAN;PacketTrace)
- 订单系统:订单拆单规则与流程详解
- 如何彻底删除打印机驱动程序
- Android静态安全检查(九):不安全的SDCard存储检测
- [hdu6578]Blank