文章目录

  • 1.写在最前面
  • 2.什么是机器学习
  • 3.机器学习面临的挑战
    • 3.1过拟合
    • 3.2克服过拟合
  • 4.机器学习的类型

1.写在最前面

从零开始接触机器学习,寒假将做一系列Matlab的学习笔记,以此来记录一个通信工程的学生接触Matlab的全过程。

2.什么是机器学习

机器学习是针对数据的一种建模技术。这里的数据指信息,如文档、音频、图像等。“模型”则是机器学习的最终产品。机器学习的诞生就是为了解决那些难以得出解析模型的问题,其技术的核心思想就是在无法使用公式及定理得到满意结果时,利用训练数据来建立模型。

Created with Raphaël 2.3.0训练数据机器学习模型

3.机器学习面临的挑战

训练数据与输入数据之间存在差异时机器学习面临的结构性挑战,是机器学习所存在的一切问题的根源。
机器学习和深度学习均无法基于错误的训练数据来实现预期目标。因此,对于机器学习而言,获取能够充分反映实际领域数据特征的无偏训练数据至关重要。
泛化(generalization)是确保模型对于训练数据与输入数据能够获得一致性能的处理过程。机器学习能否成功很大程度上取决于泛化的有效程度。

3.1过拟合

泛化过程失效的主要诱因之一就是过拟合(overfitting)。示例如下图,

显然由训练数据的一般趋势可以反映出该模型是有问题的。我们仔细看数据点,会发现某些异常数据点穿过了边界进入另一分类所对应的区域。换言之,这些数据中包含一些噪声。问题是机器学习无法区分噪声。如果机器学习考虑包括噪声的所有数据,它将生成一个不合理的模型(如上图曲线)。
由此可知,训练数据不是完美无瑕的,其中可能包含不同程度的噪音。如果认为训练数据中的每一个元素都是准确的,并且精确匹配模型,将得到一个普适性较低的模型,即过拟合。
机器学习的本源特性是竭尽所能地从训练数据中抽象出一个优质模型,但适用于训练数据的模型可能无法有效地应用于实际数据。 这并不意味着应该有意降低模型对训练数据的准确性,那将会违背机器学习的基本原则。

3.2克服过拟合

有两种办法可以实现,为正则和验证。
正则化(Regularization)是一种构建极简模型的数值方法。精简后的模型能以较小的性能代价,避免过拟合的影响。简单曲线虽然未能正确划分部分数据点,但能更好地反映各分类的总体特征。
验证(validation)的存在为了确定由训练建立的模型是否存在过拟合,通过预留一部分训练数据来监控模型的性能,验证数据集不参与训练过程。

4.机器学习的类型

根据训练方法的不同,机器学期技术可以分为以下三种类型:
监督学习(supervised learning)
无监督学习(unsupervised learning)
增强学习(reinforcement learing)
监督学习与人类学习事物的过程非常相似。在监督学习中,每个训练数据集均由输入与标准输出构成的数据对构成,标准输出是模型对该输入应生成的预期结果。监督学习的学习过程即是对模型自身进行一系列修正,以降低模型依据输入所生成的输出与标准输入之间的差异的过程。如果模型训练得很完善,就能对输入训练数据生成该数据对应的标准输出。
监督学习最常见的两类应用是分类(classification)与回归(regression)分类问题所关注的就是寻找数据所属的类别,数据中的类别即作为对应输入的标准输出;回归则是预测数值。

Matlab机器学习入门(一)相关推荐

  1. matlab机器学习入门---大纲

    提示:本文章所属专栏主要教会大家如何用matlab进行机器学习,属于机器学习入门,原理较少,实操较多,想短时间内应用机器学习解题的可入 文章目录 前言 一.matlab机器学习内容 二.matlab机 ...

  2. matlab 职坐标,机器学习入门之机器学习实战ByMatlab(四)二分K-means算法

    本文主要向大家介绍了机器学习入门之机器学习实战ByMatlab(四)二分K-means算法,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助.前面我们在是实现K-means算法的时候,提到 ...

  3. 回归素材(part7)--机器学习入门到实战-MATLAB实践应用

    学习笔记,仅供参考,有错必纠 文章目录 机器学习入门到实战-MATLAB实践应用 线性回归原理 简单线性回归 多元线性回归 机器学习入门到实战-MATLAB实践应用 线性回归原理 简单线性回归

  4. matlab 职坐标,机器学习入门之机器学习实战ByMatlab(三)K-means算法

    本文主要向大家介绍了机器学习入门之机器学习实战ByMatlab(三)K-means算法,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助.K-means算法属于无监督学习聚类算法,其计算步 ...

  5. 曲线聚类_机器学习入门必读:6种简单实用算法及学习曲线、思维导图

    来源:大数据DT 本文约3500字,建议阅读7分钟 本文为你介绍掌握机器领域知识的学习曲线.技术栈以及常用框架. [ 导读 ] 大部分的机器学习算法主要用来解决两类问题--分类问题和回归问题.在本文当 ...

  6. 机器学习入门必读:6种简单实用算法及学习曲线、思维导图

    来源:大数据DT 本文约3500字,建议阅读7分钟 本文为你介绍掌握机器领域知识的学习曲线.技术栈以及常用框架. [ 导读 ] 大部分的机器学习算法主要用来解决两类问题--分类问题和回归问题.在本文当 ...

  7. 机器学习入门系列二(关键词:多变量(非)线性回归,批处理,特征缩放,正规方程

    机器学习入门系列二(关键词:多变量(非)线性回归,批处理,特征缩放,正规方程) 目录(?)[+] 一多变量的线性回归 二批处理 三特征缩放 四正规方程 五多变量非线性回归 一.多变量的线性回归 在#机 ...

  8. 机器学习入门系列三(关键词:逻辑回归,正则化)

    机器学习入门系列三(关键词:逻辑回归,正则化) 目录(?)[+] 一逻辑回归 逻辑回归 假设表示 决策边界 代价函数 其他优化方法 多元分类 二正则化 一.逻辑回归 1.逻辑回归 什么是逻辑回归问题, ...

  9. 机器学习入门学习资源

    机器学习入门学习资源 [转载请注明出处]http://blog.csdn.net/guyuealian/article/details/51471085 这是一篇很难写的文章,因为我希望这篇文章能对学 ...

  10. 《机器学习入门实战》第 01 篇 如何入门机器学习?

    文章目录 机器学习与数据挖掘 传统入门方法的问题 逆向学习方法 专栏内容介绍 目标人群 专栏章节 机器学习与数据挖掘 如果你是一个想要入门数据科学的初学者,首先需要面对的就是各种相关的名词和概念.例如 ...

最新文章

  1. linux讲解系列:激活script
  2. python中如何安装 EasyGui模块
  3. 计算机软考中级网络工程师,如何复习计算机软考中级网络工程师更有效
  4. 20165236 2017-2018-2 《Java程序设计》结对编程练习_四则运算
  5. Python学习之解释器的简单使用
  6. linux下svn命令
  7. 7820X+RTX2080Ti(Ubuntu 18.04)新机配置记录
  8. flutter 推荐插件:path_provider
  9. 初识ProtoBuf(3.18.1)
  10. 【钟表识别】基于matlab GUI形态学钟表识别【含Matlab源码 1351期】
  11. efucms搭建教程_EFUCMS E16小说漫画源码(附安装教程)
  12. JAVA语言,YUV-I420格式转RGB格式,NV21格式转RGB格式的一种中间过程
  13. 非线性最小二乘法曲线拟合
  14. vm linux安装增强功能,VirtualBox虚拟机CentOS安装增强功能Guest Additions(示例代码)
  15. Effective C++改善程序与设计的55个具体的做法
  16. UVA 213 - Message Decoding 简单题 lambda表达式 23333333
  17. 桌面虚拟化项目的前期规划和测算
  18. 腾讯位置服务---->(小程序简单使用+显示附近WC步行路线)
  19. 生日快乐_生日快乐!
  20. 计算机网络体系结构及其简单通信

热门文章

  1. GPS定位+经纬度定位
  2. USB 协议Audio应用
  3. 关于Windows Boot Manager、Bootmgfw.efi、Bootx64.efi、bcdboot.exe 的详解
  4. mysql中转换日期格式,MySQL日期格式转换
  5. UCGUI的消息处理
  6. 购物中心节假日如何统计客流量分析客流量数据?
  7. Modis数据下载与处理(mrt、wget)
  8. cnpm 安装文件找不到_技术员修复 win7系统word2013找不到标尺工具的处理办法 -win7系统使用教程...
  9. 学习Python制作的智能小车
  10. java菜鸟突破面试系列-终章