机器学习之回归与分类

机器学习初始之路
- 机器学习是？
- 机器学习场景
- 机器学习组成
- - 1.主要任务
  - 2.监督学习（supervised learning）
  - 3.非监督学习（unsupervised learning）
- 机器学习开发流程
- - 1.数据集的划分
  - 2.模型
  - 3.特征工程
- 机器学习专业术语

机器学习初始之路

机器学习是？

在认识世界过程，类似于从一个已知量再到未知的函数。机器学习，就是预测这个函数，且使得预测结果尽量准确。
收集一大堆数据，然后用训练数据集去预测一个值，称为回归问题。例如旧手机回收，根据手机的机型、机况和行情，给出一个价格走势；
从一大堆数据中，找到属于某一类的那些，就是分类问题。

机器学习(Machine Learning,ML) 使用计算机来彰显数据背后的真实含义，是把无序的数据转换成有用的信息。其涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。包括研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。也是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，主要使用归纳、综合而不是演绎。
1）海量的数据
2）获取有用的信息

机器学习场景

在目标识别动物猫

模式识别: 通过大量图像的数据特征，得到结论，从而判断它就是猫。
机器学习（数据学习）: 人们通过阅读进行学习，观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴，得到结论，从而判断它就是猫。
深度学习（深入数据）: 人们通过深入了解它，发现它会’喵喵’的叫、与同类的猫科动物很类似，得到结论，从而判断它就是猫。（深度学习常用领域: 语音识别、图像识别）
环境与客体统称为“模式”，识别是对模式的一种认知，是如何让一个计算机程序去做一些看起来很“智能”的事情。
通过融于智慧和直觉后，通过构建程序，识别一些事物，而不是人，例如: 识别数字。
机器学习是最基础的（当下初创公司和研究实验室的热点领域之一）。通过更有效地构建模式识别算法的方法，用大量数据（通过廉价劳动力采集集标注获得）去替换专家（具有很多图像方面知识的人）。
“机器学习”强调的是，在给计算机程序（或者机器）输入一些数据后，它必须做一些事情，那就是学习这些数据，而这个学习的步骤是明确的。
机器学习（Machine Learning）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科。
机器学习已应用于多个领域，远远超出大多数人的想象，横跨: 计算机科学、工程技术和统计学等多个学科。
eg：
搜索引擎: 根据用户搜索点击，优化下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合用户（也判断哪个广告更适合用户）。
垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
邮局邮寄: 手写软件自动识别寄送贺卡的地址。
申请贷款: 通过最近的金融活动信息进行综合评定，决定用户是否合格。

机器学习组成

1.主要任务

分类（classification）: 将实例数据划分到合适的类别中。
应用实例: 判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类），多目标分类（多分类）。
回归（regression）: 主要用于预测数值型数据。
应用实例: 股票价格波动的预测，房屋价格的预测等

2.监督学习（supervised learning）

必须确定目标变量的值，以便算法可以发现特征和目标变量之间的关系。在监督学习中，给定一组数据，正确的输出结果是明确的，并且知道在输入和输出之间有着一个特定的关系。 (包括: 分类和回归)
样本集: 训练数据 + 测试数据
训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
特征通常是训练样本集的列，独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型(如: 真与假)，而在回归算法中通常是连续型(如: 1~100)。
在监督学习需要注意的问题:
偏置方差权衡
功能的复杂性和数量的训练数据
输入空间的维数
噪声中的输出值

3.非监督学习（unsupervised learning）

在机器学习，无监督学习的问题是，在未加标签的数据中，试图找到隐藏的结构。提供数据的实例是未标记的，没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求，总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。数据没有类别信息，也不会给定目标值。
非监督学习包括的类型:
聚类: 在无监督学习中，将数据集分成由类似的对象组成多个类的过程称为聚类。
密度估计: 通过样本分布的紧密程度，来估计与分组的相似性。
此外，无监督学习还可以减少数据特征的维度，以便使用二维或三维图形更加直观地展示数据信息。

机器学习开发流程

1）收集数据: 收集样本数据
2）准备数据: 注意数据的格式
3）分析数据: 为了确保数据集中没有垃圾数据；
4）如果是算法可以处理的数据格式或可信任的数据源，则可以跳过该步骤；
另外该步骤需要人工干预，会降低自动化系统的价值。
5）训练算法: [机器学习算法核心]如果使用无监督学习算法，由于不存在目标变量值，则可以跳过该步骤
6）测试算法: [机器学习算法核心]评估算法效果
7）使用算法: 将机器学习算法转为应用程序

1.数据集的划分

训练集（Training set） —— 学习样本数据集，通过匹配一些参数来建立一个模型，主要用来训练模型。
验证集（validation set） —— 对学习出来的模型，调整模型的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。
测试集（Test set） —— 测试训练好的模型的分辨能力。

2.模型

分类问题 —— 将一些未知类别的数据分到现在已知的类别中去。比如，根据已知的一些信息，来做判断。评判分类效果好坏的三个指标: 正确率，召回率，F值。
回归问题 —— 对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算误差（Error）来确定模型的精确性。
聚类问题 —— 聚类是一种无监督学习任务，该算法基于数据的内部结构寻找观察样本的自然族群（即集群）。聚类问题的标准一般基于距离: 簇内距离（Intra-cluster Distance）和簇间距离（Inter-cluster Distance）。簇内距离是越小越好，也就是簇内的元素越相似越好；而簇间距离越大越好，也就是说簇间（不同簇）元素越不相同越好。一般的，衡量聚类问题会给出一个结合簇内距离和簇间距离的公式。

3.特征工程

特征选择 —— 也叫特征子集选择（FSS，Feature Subset Selection）。是指从已有的 M 个特征（Feature）中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。
特征提取 —— 特征提取是计算机视觉和图像处理中的一个概念。使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点，连续的曲线或者连续的区域。

机器学习专业术语

模型（model）: 计算机层面的认知
学习算法（learning algorithm），从数据中产生模型的方法
数据集（data set）: 一组记录的合集
示例（instance）: 对于某个对象的描述
样本（sample）: 也叫示例
属性（attribute）: 对象的某方面表现或特征
特征（feature）: 同属性
属性值（attribute value）: 属性上的取值
属性空间（attribute space）: 属性张成的空间
样本空间/输入空间（samplespace）: 同属性空间
特征向量（feature vector）: 在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量
维数（dimensionality）: 描述样本参数的个数（也就是空间是几维的）
学习（learning）/训练（training）: 从数据中学得模型
训练数据（training data）: 训练过程中用到的数据
训练样本（training sample）:训练用到的每个样本
训练集（training set）: 训练样本组成的集合
假设（hypothesis）: 学习模型对应了关于数据的某种潜在规则
真相（ground-truth）:真正存在的潜在规律
学习器（learner）: 模型的另一种叫法，把学习算法在给定数据和参数空间的实例化
预测（prediction）: 判断一个东西的属性
标记（label）: 关于示例的结果信息，比如我是一个“好人”。
样例（example）: 拥有标记的示例
标记空间/输出空间（label space）: 所有标记的集合
分类（classification）: 预测是离散值，比如把人分为好人和坏人之类的学习任务
回归（regression）: 预测值是连续值，比如你的好人程度达到了0.9，0.6之类的
二分类（binary classification）: 只涉及两个类别的分类任务
正类（positive class）: 二分类里的一个
反类（negative class）: 二分类里的另外一个
多分类（multi-class classification）: 涉及多个类别的分类
测试（testing）: 学习到模型之后对样本进行预测的过程
测试样本（testing sample）: 被预测的样本
聚类（clustering）: 把训练集中的对象分为若干组
簇（cluster）: 每一个组叫簇
监督学习（supervised learning）: 典范–分类和回归
无监督学习（unsupervised learning）: 典范–聚类
未见示例（unseen instance）: “新样本“，没训练过的样本
泛化（generalization）能力: 学得的模型适用于新样本的能力
分布（distribution）: 样本空间的全体样本服从的一种规律
独立同分布（independent and identically distributed，简称i,i,d.）:获得的每个样本都是独立地从这个分布上采样获得的。

机器学习之回归与分类相关推荐

人人都能看懂的机器学习！3个案例详解聚类、回归、分类算法
导读:机器是怎样学习的,都学到了什么?人类又是怎样教会机器学习的?本文通过案例给你讲清楚各类算法的原理和应用. 机器学习,一言以蔽之就是人类定义一定的计算机算法,让计算机根据输入的样本和一些人类的干预 ...
轻松看懂机器学习！3个案例详解聚类、回归、分类算法
来源:大数据本文共7300字,建议阅读10+分钟. 机器是怎样学习的,都学到了什么?人类又是怎样教会机器学习的?本文通过案例给你讲清楚各类算法的原理和应用. 机器学习,一言以蔽之就是人类定义一定的计 ...
回归、分类与聚类：三大方向剖解机器学习算法的优缺点
回归.分类与聚类:三大方向剖解机器学习算法的优缺点 2017-05-20 13:56:14 机器学习数学 3 0 0 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类 ...
[云炬python3玩转机器学习笔记] 2-6关于回归和分类
在这一章,我们了解到了,机器学习主要可以处理的两大类问题,是回归和分类.看起来,似乎有些局限,但是,非常出人意料的,在我们现实生活中,很多问题,都可以通过化简,或者转换的手段,转换成分类问题或者回归问 ...
机器学习笔记I: 基于逻辑回归的分类预测
逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中.虽然现在深度学习相 ...
机器学习笔记-基于逻辑回归的分类预测
天池学习笔记:AI训练营机器学习-阿里云天池基于逻辑回归的分类预测 1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有&quo ...
机器学习核心总结-概念、线性回归、损失函数、泛化及数据集划分、特征工程、逻辑回归和分类
文章目录一.机器学习入门概念一.基本概念机器学习:让机器进行学习和决策机器学习分类:无监督学习.监督学习.强化学习深度学习:模拟人脑,自动提取输入特征,是实现机器学习的方式之一神经网络:一 ...
向毕业妥协系列之机器学习笔记:监督学习-回归与分类（一）
目录一.Machine Learning概念二.单(双)变量线性回归模型 1.代价函数 2.梯度下降三.搭建实验环境一.Machine Learning概念简单在知乎上搜了一下机器学习的学习 ...
浅谈机器学习-回归与分类的区别
前言机器学习的主要任务便是聚焦于两个问题:分类和回归.本文将浅谈下两者的区别. 区别回归会给出一个具体的结果,例如房价的数据,根据位置.周边.配套等等这些维度,给出一个房价的预测. ...
ML机器学习算法（一）: 基于逻辑回归的分类预测
机器学习算法(一): 基于逻辑回归的分类预测 1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个 ...

机器学习之回归与分类

机器学习之回归与分类

机器学习初始之路

机器学习是？

机器学习场景

机器学习组成

1.主要任务

2.监督学习（supervised learning）

3.非监督学习（unsupervised learning）

机器学习开发流程

1.数据集的划分

2.模型

3.特征工程

机器学习专业术语

机器学习之回归与分类相关推荐

最新文章

热门文章

机器学习之回归与分类

机器学习之回归与分类

机器学习初始之路

机器学习是？

机器学习场景

机器学习组成

1.主要任务

2.监督学习（supervised learning）

3.非监督学习（unsupervised learning）

机器学习 开发流程

1.数据集的划分

2.模型

3.特征工程

机器学习专业术语

机器学习之回归与分类相关推荐

最新文章

热门文章

机器学习开发流程