机器学习之回归与分类

  • 机器学习初始之路
    • 机器学习是?
    • 机器学习场景
    • 机器学习组成
      • 1.主要任务
      • 2.监督学习(supervised learning)
      • 3.非监督学习(unsupervised learning)
    • 机器学习 开发流程
      • 1.数据集的划分
      • 2.模型
      • 3.特征工程
    • 机器学习专业术语

机器学习初始之路

机器学习是?

在认识世界过程,类似于从一个已知量再到未知的函数。机器学习,就是预测这个函数,且使得预测结果尽量准确。
收集一大堆数据,然后用训练数据集去预测一个值,称为回归问题。例如旧手机回收,根据手机的机型、机况和行情,给出一个价格走势;
从一大堆数据中,找到属于某一类的那些,就是分类问题。

机器学习(Machine Learning,ML) 使用计算机来彰显数据背后的真实含义,是把无序的数据转换成有用的信息。其涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。包括研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 也是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用归纳、综合而不是演绎。
1)海量的数据
2)获取有用的信息

机器学习场景

在目标识别动物猫

模式识别: 通过大量图像的数据特征,得到结论,从而判断它就是猫。
机器学习(数据学习): 人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
深度学习(深入数据): 人们通过深入了解它,发现它会’喵喵’的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域: 语音识别、图像识别)
环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。
通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。
机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。通过更有效地构建模式识别算法的方法,用大量数据(通过廉价劳动力采集集标注获得)去替换专家(具有很多图像方面知识的人)。
“机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
机器学习已应用于多个领域,远远超出大多数人的想象,横跨: 计算机科学、工程技术和统计学等多个学科。
eg:
搜索引擎: 根据用户搜索点击,优化下次的搜索结果,是机器学习来帮助搜索引擎判断哪个结果更适合用户(也判断哪个广告更适合用户)。
垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
邮局邮寄: 手写软件自动识别寄送贺卡的地址。
申请贷款: 通过最近的金融活动信息进行综合评定,决定用户是否合格。

机器学习组成

1.主要任务

分类(classification): 将实例数据划分到合适的类别中。
应用实例: 判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类),多目标分类(多分类)。
回归(regression): 主要用于预测数值型数据。
应用实例: 股票价格波动的预测,房屋价格的预测等

2.监督学习(supervised learning)

必须确定目标变量的值,以便算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,正确的输出结果是明确的,并且知道在输入和输出之间有着一个特定的关系。 (包括: 分类和回归)
样本集: 训练数据 + 测试数据
训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
特征通常是训练样本集的列,独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型(如: 真与假),而在回归算法中通常是连续型(如: 1~100)。
在监督学习需要注意的问题:
偏置方差权衡
功能的复杂性和数量的训练数据
输入空间的维数
噪声中的输出值

3.非监督学习(unsupervised learning)

在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。提供数据的实例是未标记的,没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。数据没有类别信息,也不会给定目标值。
非监督学习包括的类型:
聚类: 在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。
密度估计: 通过样本分布的紧密程度,来估计与分组的相似性。
此外,无监督学习还可以减少数据特征的维度,以便使用二维或三维图形更加直观地展示数据信息。

机器学习 开发流程

1)收集数据: 收集样本数据
2)准备数据: 注意数据的格式
3)分析数据: 为了确保数据集中没有垃圾数据;
4)如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
另外该步骤需要人工干预,会降低自动化系统的价值。
5)训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
6)测试算法: [机器学习算法核心]评估算法效果
7)使用算法: 将机器学习算法转为应用程序

1.数据集的划分

训练集(Training set) —— 学习样本数据集,通过匹配一些参数来建立一个模型,主要用来训练模型。
验证集(validation set) —— 对学习出来的模型,调整模型的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。
测试集(Test set) —— 测试训练好的模型的分辨能力。

2.模型

分类问题 —— 将一些未知类别的数据分到现在已知的类别中去。比如,根据已知的一些信息,来做判断。评判分类效果好坏的三个指标: 正确率,召回率,F值。
回归问题 —— 对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算 误差(Error)来确定模型的精确性。
聚类问题 —— 聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。聚类问题的标准一般基于距离: 簇内距离(Intra-cluster Distance) 和 簇间距离(Inter-cluster Distance) 。簇内距离是越小越好,也就是簇内的元素越相似越好;而簇间距离越大越好,也就是说簇间(不同簇)元素越不相同越好。一般的,衡量聚类问题会给出一个结合簇内距离和簇间距离的公式。

3.特征工程

特征选择 —— 也叫特征子集选择(FSS,Feature Subset Selection)。是指从已有的 M 个特征(Feature)中选择 N 个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
特征提取 —— 特征提取是计算机视觉和图像处理中的一个概念。使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点,连续的曲线或者连续的区域。

机器学习专业术语

模型(model): 计算机层面的认知
学习算法(learning algorithm),从数据中产生模型的方法
数据集(data set): 一组记录的合集
示例(instance): 对于某个对象的描述
样本(sample): 也叫示例
属性(attribute): 对象的某方面表现或特征
特征(feature): 同属性
属性值(attribute value): 属性上的取值
属性空间(attribute space): 属性张成的空间
样本空间/输入空间(samplespace): 同属性空间
特征向量(feature vector): 在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
维数(dimensionality): 描述样本参数的个数(也就是空间是几维的)
学习(learning)/训练(training): 从数据中学得模型
训练数据(training data): 训练过程中用到的数据
训练样本(training sample):训练用到的每个样本
训练集(training set): 训练样本组成的集合
假设(hypothesis): 学习模型对应了关于数据的某种潜在规则
真相(ground-truth):真正存在的潜在规律
学习器(learner): 模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
预测(prediction): 判断一个东西的属性
标记(label): 关于示例的结果信息,比如我是一个“好人”。
样例(example): 拥有标记的示例
标记空间/输出空间(label space): 所有标记的集合
分类(classification): 预测是离散值,比如把人分为好人和坏人之类的学习任务
回归(regression): 预测值是连续值,比如你的好人程度达到了0.9,0.6之类的
二分类(binary classification): 只涉及两个类别的分类任务
正类(positive class): 二分类里的一个
反类(negative class): 二分类里的另外一个
多分类(multi-class classification): 涉及多个类别的分类
测试(testing): 学习到模型之后对样本进行预测的过程
测试样本(testing sample): 被预测的样本
聚类(clustering): 把训练集中的对象分为若干组
簇(cluster): 每一个组叫簇
监督学习(supervised learning): 典范–分类和回归
无监督学习(unsupervised learning): 典范–聚类
未见示例(unseen instance): “新样本“,没训练过的样本
泛化(generalization)能力: 学得的模型适用于新样本的能力
分布(distribution): 样本空间的全体样本服从的一种规律
独立同分布(independent and identically distributed,简称i,i,d.):获得的每个样本都是独立地从这个分布上采样获得的。

机器学习之回归与分类相关推荐

  1. 人人都能看懂的机器学习!3个案例详解聚类、回归、分类算法

    导读:机器是怎样学习的,都学到了什么?人类又是怎样教会机器学习的?本文通过案例给你讲清楚各类算法的原理和应用. 机器学习,一言以蔽之就是人类定义一定的计算机算法,让计算机根据输入的样本和一些人类的干预 ...

  2. 轻松看懂机器学习!3个案例详解聚类、回归、分类算法

    来源:大数据 本文共7300字,建议阅读10+分钟. 机器是怎样学习的,都学到了什么?人类又是怎样教会机器学习的?本文通过案例给你讲清楚各类算法的原理和应用. 机器学习,一言以蔽之就是人类定义一定的计 ...

  3. 回归、分类与聚类:三大方向剖解机器学习算法的优缺点

    回归.分类与聚类:三大方向剖解机器学习算法的优缺点 2017-05-20 13:56:14    机器学习   数学    3 0 0 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类 ...

  4. [云炬python3玩转机器学习笔记] 2-6关于回归和分类

    在这一章,我们了解到了,机器学习主要可以处理的两大类问题,是回归和分类.看起来,似乎有些局限,但是,非常出人意料的,在我们现实生活中,很多问题,都可以通过化简,或者转换的手段,转换成分类问题或者回归问 ...

  5. 机器学习笔记I: 基于逻辑回归的分类预测

    逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中.虽然现在深度学习相 ...

  6. 机器学习笔记-基于逻辑回归的分类预测

    天池学习笔记:AI训练营机器学习-阿里云天池 基于逻辑回归的分类预测 1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有&quo ...

  7. 机器学习核心总结-概念、线性回归、损失函数、泛化及数据集划分、特征工程、逻辑回归和分类

    文章目录 一.机器学习入门概念 一.基本概念 机器学习:让机器进行学习和决策 机器学习分类:无监督学习.监督学习.强化学习 深度学习:模拟人脑,自动提取输入特征,是实现机器学习的方式之一 神经网络:一 ...

  8. 向毕业妥协系列之机器学习笔记:监督学习-回归与分类(一)

    目录 一.Machine Learning概念 二.单(双)变量线性回归模型 1.代价函数 2.梯度下降 三.搭建实验环境 一.Machine Learning概念 简单在知乎上搜了一下机器学习的学习 ...

  9. 浅谈机器学习-回归与分类的区别

    前言 机器学习的主要任务便是聚焦于两个问题:分类和回归.本文将浅谈下两者的区别. 区别 回归会给出一个具体的结果,例如房价的数据,根据位置.周边.配套等等这些维度,给出一个房价的预测.         ...

  10. ML机器学习算法(一): 基于逻辑回归的分类预测

    机器学习算法(一): 基于逻辑回归的分类预测 1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个 ...

最新文章

  1. tf.keras.losses.CategoricalHinge 损失函数示例
  2. SpringCloud实战4-Hystrix线程隔离请求缓存请求合并
  3. C# Newtonsoft.Json 应用
  4. 按照时间,每天分区;按照数字,200000一个分区
  5. 12个优秀的 HTML5 网站设计案例欣赏
  6. python爬虫获取网易云音乐歌单
  7. 【系统分析师之路】2020年下系统分析师案例分析真题
  8. 【转载】matlab中norm函数的用法
  9. [双目视差] 单双目MATLAB 相机标定(二)双目摄像机标定
  10. API接口名称(item_search - 按关键字搜索淘宝商品)[item_search,item_get,item_search_shop等]
  11. UESTC_冬马党 CDOJ 882
  12. MIT oracle ma 信号线,美国 MIT Oracle MA-X Phono唱臂线 独家Multipole技术
  13. linux 文本随机抽样_Linux命令总结
  14. 视觉十四讲 第三讲 深蓝学院习题分析
  15. 对话行癫:CTO 最重要的是判断未来!| 人物志
  16. 机器学习Machine Learning
  17. ML-czy的小组任务
  18. python设计一个学生类姓名年龄成绩_C# 编写学生类Student,包含学生姓名,成绩,设计一个友员函数sortDegree(),将学生成绩按大到小排序。...
  19. vue中使用Antv g6构建简单流程图
  20. idea调整代码标签编辑器标签editor tabs的横排和竖排

热门文章

  1. AutoSAR入门到精通讲解 (AuroSAR-CP描述) 1.1 AutoSAR-CP简介
  2. Spring Cloud:负载均衡 - Spring Cloud Loadbalancer原理
  3. amazon aws 亚马逊云服务概述
  4. 银行的SWIFT CODE 和 IBAN CODE 和 ABA CODE 分别是什么意思
  5. sdn 华硕二级路由_Mesh分布式路由器,能否改善全屋WiFi信号覆盖问题,路由组网分享...
  6. 业务:金融科技行业分析
  7. 年近30,半失业状态:定制化,正在拖垮年轻人
  8. python练习3:输入某年某月某日,判断这一天是这一年的第几天?
  9. gazebo设置_gazebo教程(六)插件配置
  10. 记一篇我的机器学习和目标检测的学习历程_目标检测与卷积神经网络的简单理解