Machine Learning 简介与学习路线

  • 数据挖掘:
  • 计算机视觉
  • 自然语言处理
  • 机器人决策
  • 学习路线

机器学习(Machine Learning)有众多的应用领域,目前比较活跃的主要是数据挖掘(data mining),计算机视觉(computer vision, CV),自然语言处理(natural language processing, NLP),机器人决策这四大领域。

数据挖掘:

通俗的说是从大量已获取的案例中寻找出数据的关系或规律,从而可以对新采集的样本进行预测或分类。数据挖掘可以说是机器学习历史最悠久的应用领域,在人工智能的概念还没有被提出的时候,统计学家的研究已经比较成熟了。其实我们在中学时就已经学习过相关内容,例如:

中学时期的数学课上,我们学会了绘制散点图,用最小二乘法(least square method)求解出回归直线从而解决问题。真实的回归案例与中学时的问题思想上是类似的,只是多数情况下会有更多的变量而已。

在一个问题中,当我们需要预测的不是连续的实数值,而是离散的类别时,这个问题被称为分类问题。如下图所示,为了预测一个病人是否患有糖尿病,我们可以设计一个模型,从大量的案例(体检的数据以及是否患有糖尿病的诊断)中寻找到规律,从而使用这个模型对其他人进行诊断。这种计算机辅助医疗的技术已经逐步应用在真实的场景中了。

计算机视觉

即让计算机可以“看”懂世界。例如计算机可以完成图像分类、OCR(光学字符识别)、目标检测、语义分割、场景理解等任务。

图像分类是指让计算机将图像归类到正确的类别,例如判断每个图像对应哪一个阿拉伯数字;识别出图像中的物体是小猫小狗还是汽车飞机等等。这种对于人类来说很容易完成的任务,计算机却难以理解。因为在计算机看来,图像仅仅是一些像素点的排列组合,不同的比例、不同的视角下同一个物体会有着天壤之别。前一段时间比较流行的微信小程序“猜画小歌”即是一个强大的图像分类器。

OCR是指让计算机将纸上印刷的字或者图片中的字符翻译成计算机文字的过程。一二君曾经做过一个项目,其中有一步尝试使用传统的编程的方法编写大量的规则让计算机去理解图像对应的汉字,但是效果很不理想。

计算机自动地从图像中标注出需要关注的物体即为目标检测;将其分割出来即为语义分割;若能理解图像中的每一个物体(或者是关键的物体)是什么,就做到了场景理解——这是做到自动驾驶的关键之一。

自然语言处理

希望计算机可以像人一样理解懂自然语言。例如将一篇文章自动分类打上“政治”、“体育”、“娱乐”等标签;“看懂”一篇文章,自动生成文章的摘要;理解一句中文语句,自动将其翻译成英文;人机对话,可以聊天的机器人;image to text ,将图片或者视频中的内容用文字表述出来,也许未来我们听到的体育比赛的解说将是由机器自动生成的。

机器人决策

例如自动驾驶,Alpha GO,以及电子游戏里越来越强的人机。

下面再介绍一些概念:

总体来说,机器学习的问题可以分为监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习主要是上文所提到的回归与分类问题,指训练样本带有属性标签,即每个训练样本都是由一个输入对象(通常是一组值,被称为输入向量)和一个期望的输出值组成。而无监督学习的数据是未标注的,通常包含聚类(根据样本的属性相近程度自动将样本分类)等问题。

深度学习(deep learning)是指使用深度神经网络来解决机器学习问题的方法。它的最近一次兴起是拜计算机性能的提升(计算力)以及互联网发展下数据量的急速增长(数据量)所赐,事实上深度学习的算法模型大部分在上个世纪就已经被发明出来了。在2012年的LSVRC图像识别分类竞赛中,使用深度学习方法的团队在成绩上取得了突破,后来每年获得优胜的团队均是使用深度学习技术。2016年是LSVRC竞赛的最后一年,因为在这个竞赛的数据集上的图像分类任务,计算机已经可以比人类做的更好了。


Winner results of the ImageNet large scale visual recognition challenge (LSVRC) of the past years on the top-5 classification task: The green bar indicates the best computer vision approach, whereas the blue bars are all deep neural network architectures. The human score is represented as the red bar.

学习路线

机器学习所涵盖的内容有很多,这里谈一下一二君的看法。我认为我们应该从传统的监督学习算法开始入手,这一部分的主要是统计学习方法;入门之后开始学习无监督学习的经典算法,深度学习;最后再学习一下最新的GAN(生成式对抗网络)与强化学习等技术。

具体的细节如下所示:

这里参考了博主 白马负金羁 的博客《机器学习与数据挖掘的学习路线图》: https://blog.csdn.net/baimafujinji/article/details/49891221

之所以把它们归为一条线路,因为所有这些算法都是围绕着 y = Σxiβi,这样一条简单的公式展开的,如果你抓住这条线索,不断探索下去,就算是抓住它们之间的绳索了。其中蓝色部分主要是回归,绿色部分主要是有监督的分类学习法。

另外Machine Learning的深入学习也需要一定的数学基础,请持续关注我的博客以及个人公众号:史莱姆与一二君(或微信号搜索 learnCS12)学习数学基础哦。

最后推荐一本简单的入门书华东师范大学出版社出版的高中教材《人工智能基础·高中版》,这本书尽量避开了较为复杂的数学细节,对于各类算法的覆盖广泛,书也很薄,是一本优秀的入门教材。

Machine Learning 简介与学习路线相关推荐

  1. 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现

    网址:https://github.com/NLP-LOVE/ML-NLP 此项目是机器学习(Machine Learning).深度学习(Deep Learning).NLP面试中常考到的知识点和代 ...

  2. 机器学习(Machine Learning)——深度学习(Deep Learning)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/abcjennifer/article/ ...

  3. 机器学习(Machine Learning)amp;深度学习(Deep Learning)资料

    机器学习(Machine Learning)&深度学习(Deep Learning)资料 機器學習.深度學習方面不錯的資料,轉載. 原作:https://github.com/ty4z2008 ...

  4. 转【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

    原文出处:http://blog.csdn.net/zhongwen7710/article/details/45331915 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决 ...

  5. 原创 | 斯坦福Machine Learning with Graphs 学习笔记(第一讲)

    作者:林夕 本文长度为2900字,建议阅读9分钟 本文为大家介绍图网络的基本概念.网络的应用以及图的结构. 标签:机器学习 目录 一.Why Networks 二.网络的应用     2.1 应用领域 ...

  6. 【Machine Learning】回归学习与示例

    回归学习(Regression Learning),又称为回归分析(Regression Analysis),是一种近似方法,从未知概率分布的随机样本中获得目标函数. 一.基本原理 变量之间的相互关系 ...

  7. 原创 | 斯坦福Machine Learning with Graphs 学习笔记(第二讲)

    作者:于媛,十三鸣 本文长度为3300字,建议阅读10+分钟 本文为大家介绍常用的网络属性和经典的网络模型. 标签:机器学习 [ 导读 ]在研究网络的时候,我们往往需要从结构层面对网络进行分析,网络属 ...

  8. 【Machine Learning】KNN学习算法与C语言实现

    KNN学习(K-Nearest Neighbor algorithm,K最邻近方法)是一种统计分类器,属于惰性学习,对包容型数据的特征变量筛选尤其有效.KNN的基本思想是:输入没有标签即未经分类的新数 ...

  9. 分布式系统简介和学习路线

    什么是分布式系统 分布式系统是由一组通过网络进行通信.为了完成共同的任务而协调工作的计算机节点组成的系统.分布式系统的出现是为了用廉价的.普通的机器完成单个计算机无法完成的计算.存储任务.其目的是利用 ...

  10. 决策树(chap3)Machine Learning In Action学习笔记

    优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型(必须离散化)和标称型. 决策树创建分支的伪代码函数crea ...

最新文章

  1. 一文盘点MWC 2019所有5G设备和研发进展
  2. 视觉里程计的轨迹评估的工具:evo
  3. TP v5中环境变量在项目中的应用
  4. 手把手教你安装鸿蒙和运行第一个Demo(js)版
  5. 基于visual c++之windows核心编程代码分析(42)windows下进程的身份切换
  6. GitHub上最受开发人员欢迎的5大Java项目
  7. Boost.Flyweight 复合设计示例
  8. 【Xamarin 挖墙脚系列:Xamarin SDK开源了................】
  9. 插图 引用 同一行两个插图_提出食物主题中的插图
  10. pandas apply函数_Pandas学习笔记(四)
  11. Muse-UI +Vue2.0框架开发环境搭建
  12. jQuery三天复习.md
  13. Java基础----Java---集合框架---泛型、泛型方法、静态方法泛型、泛型接口、泛型限定、泛型类
  14. Vissim安装及配置详解
  15. iphone11京东商品评论分析
  16. 快速从入门到精通!黑马java课程大纲
  17. 使用scrapy爬取阳光热线问政平台
  18. 新计算机c盘太小,Windows自带C盘扩容方法,c盘太小怎么重新分区
  19. 数据库索引结构(方法),一张图搞懂MySQL索引
  20. 2018年总结, 2019年规划

热门文章

  1. 车载etc充值显示服务器连接失败,为什么有的etc会显示余额,有的没有
  2. 双机热备的概念双机热备的概念
  3. [转]经典JavaScript正则表达式
  4. AidLearning上手使用经验谈
  5. AID自定义桌面图标
  6. python第七天作业
  7. android经典项目案例开发
  8. 如何查看电脑本地IP+端口号
  9. 法语学习笔记——语音
  10. win10永久自动更新服务器,四种方法关闭win10专业版自动更新