机器学习是一门多领域交叉学科,廊括众多:涉及到概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心,是使计算机具有智能的根本途径。如果以人来说明的话,机器学习相当于人的学习能力和发展能力。

我们对机器学习的认识,不能管中窥豹,要全面一些,了解他的前世今生。即它的发展历程是怎么样的;于今天而言,它的现状又是怎么样的;在未来,它将会有哪些全新的发展。横向来看。机器学习的分类又都有哪些;它的算法有哪些;在哪些领域有它的应用。

一、机器学习的发展历程

机器学习的发展和人工智能发展是离不开的,机器学习是人工智能研究发展到一定阶段的必然产物。

人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。下面是人工智能发展的三个时期:

推理期

时间为1950s~1970s,人们认为只要给机器赋予逻辑推理能力,机器就能具有智能。这一阶段的代表性工作主要有A. Newell和H. Simon的“逻辑理论家”程序以及此后的“通用问题求解”程序等,这些工作在当时取得了令人振奋的成果。例如,“逻辑理论家”程序在1952年证明了著名数学家罗素和怀特海的名著《数学原理》中的38条定理,在1963年证明了全部的52 条定理,而且定理 2.85甚至比罗素和怀特海证明得更巧妙。A.Newell和H.Simon因此获得了1975年图灵奖。然而,随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的。E.A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识。

知识期

时间为1970s~1980s,在这一时期,大量专家系统问世,在很多领域做出了巨大贡献。E.A. Feigenbaum 作为“知识工程”之父在 1994 年获得了图灵奖。但是,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来再教给计算机是相当困难的。于是,一些学者想到,如果机器自己能够学习知识该多好

学习期

时间为1980s~现在,机器学习开始受到重视,成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期。事实上,图灵在1950年提出图灵测试的文章中就已经提到了机器学习的可能,而1950s其实已经开始有机器学习相关的研究工作,主要集中在基于神经网络的连接主义学习方面,代表性工作主要有F.Rosenblatt的感知机、B.Widrow的Adaline等。

二、机器学习的研究现状

机器学习作为人工智能的关键核心技术,受到了前所未有的重视和快速发展。深入研究其发展现状和竞争格局,有助于为企业战略和相关产业政策制定提供科学决策依据。

基于 DII 数据库和 WOS 数据库,从发展阶段、热点与核心领域识别、竞争国家对比三方面,对该技术领域发展现状、竞争格局进行了分析。

机器学习技术处于快速成长期,我国目前也处于快速发展期;我国在技术结构布局上存在短板;美国的专利活动最强,我国也属于技术活跃者;美国的专利质量最高,我国与其相差较大;互联网企业是重要推动力量;热点领域有智能诊断、自动驾驶仪、教育辅助、语音识别、计算机视觉等;核心领域有排。。.。。.

三、机器学习的分类

(一)基于学习策略的分类:模拟人脑的机器学习、直接采用数学方法的机器学习

(二)基于学习方法的分类:归纳学习、演绎学习、类比学习、分析学习

四、机器学习的常见算法

1. 线性回归

在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。

预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。

线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线。

2. Logistic 回归

LogisTIc 回归是机器学习从统计学领域借鉴过来的另一种技术。它是二分类问题的首选方法。

像线性回归一样,LogisTIc 回归的目的也是找到每个输入变量的权重系数值。但不同的是,LogisTIc 回归的输出预测结果是通过一个叫作「logisTIc 函数」的非线性函数变换而来的。

logistic 函数的形状看起来像一个大的「S」,它会把任何值转换至 0-1 的区间内。这十分有用,因为我们可以把一个规则应用于 logistic 函数的输出,从而得到 0-1 区间内的捕捉值(例如,将阈值设置为 0.5,则如果函数值小于 0.5,则输出值为 1),并预测类别的值。

3. 线性判别分析

Logistic 回归是一种传统的分类算法,它的使用场景仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(LDA)是首选的线性分类技术。

4. 分类和回归树

决策树是一类重要的机器学习预测建模算法。

决策树可以被表示为一棵二叉树。这种二叉树与算法设计和数据结构中的二叉树是一样的,没有什么特别。每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假设该变量是数值型的)。

5. 朴素贝叶斯

朴素贝叶斯是一种简单而强大的预测建模算法。

该模型由两类可直接从训练数据中计算出来的概率组成:1)数据属于每一类的概率;2)给定每个 x 值,数据从属于每个类的条件概率。一旦这两个概率被计算出来,就可以使用贝叶斯定理,用概率模型对新数据进行预测。当你的数据是实值的时候,通常假设数据符合高斯分布(钟形曲线),这样你就可以很容易地估计这些概率。

6. K 最近邻算法

K 最近邻(KNN)算法是非常简单而有效的。KNN 的模型表示就是整个训练数据集。

对新数据点的预测结果是通过在整个训练集上搜索与该数据点最相似的 K 个实例(近邻)并且总结这 K 个实例的输出变量而得出的。对于回归问题来说,预测结果可能就是输出变量的均值;而对于分类问题来说,预测结果可能是众数(或最常见的)的类的值。

关键之处在于如何判定数据实例之间的相似程度。如果你的数据特征尺度相同(例如,都以英寸为单位),那么最简单的度量技术就是使用欧几里得距离,你可以根据输入变量之间的差异直接计算出该值。

7. 学习向量量化

KNN 算法的一个缺点是,你需要处理整个训练数据集。而学习向量量化算法(LVQ)允许选择所需训练实例数量,并确切地学习这些实例。

8. 支持向量机

支持向量机(SVM)可能是目前最流行、被讨论地最多的机器学习算法之一。

超平面是一条对输入变量空间进行划分的「直线」。支持向量机会选出一个将输入变量空间中的点按类(类 0 或类 1)进行最佳分割的超平面。在二维空间中,你可以把他想象成一条直线,假设所有输入点都可以被这条直线完全地划分开来。SVM 学习算法旨在寻找最终通过超平面得到最佳类别分割的系数。

9. 袋装法和随机森林

随机森林是最流行也最强大的机器学习算法之一,它是一种集成机器学习算法。

自助法是一种从数据样本中估计某个量(例如平均值)的强大统计学方法。你需要在数据中取出大量的样本,计算均值,然后对每次取样计算出的均值再取平均,从而得到对所有数据的真实均值更好的估计。

随机性来进行次优分割。

10. Boosting 和 AdaBoost

Boosting 是一种试图利用大量弱分类器创建一个强分类器的集成技术。要实现 Boosting 方法,首先你需要利用训练数据构建一个模型,然后创建第二个模型(它企图修正第一个模型的误差)。直到最后模型能够对训练集进行完美地预测或加入的模型数量已达上限,我们才停止加入新的模型。

五、机器学习的应用

模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切。

计算机算法应用状况,详解机器学习中的现状,算法,应用相关推荐

  1. JavaScript数组结构与算法——数组详解(中)

    迭代器方法 在上篇中,我们探讨了很多数组方法,接下来总结一下最后一组方法--迭代器方法.这些方法对数组的每个元素应用一个函数,可以返回一个值.一组值.或者一个新数组. 1.不生成新数组的迭代器方法 以 ...

  2. 详解机器学习中的VC维

    机器学习中的经典算法SVM(支持向量机)最初是由前苏联数学家Vladimir Vapnik 和 Alexey Chervonenkis 在 1963年提出的.二人合作完成的另外一个之于机器学习的重要贡 ...

  3. louvian算法 缺点 优化_机器学习中的优化算法(1)-优化算法重要性,SGD,Momentum(附Python示例)...

    本系列文章已转至 机器学习的优化器​zhuanlan.zhihu.com 优化算法在机器学习中扮演着至关重要的角色,了解常用的优化算法对于机器学习爱好者和从业者有着重要的意义. 这系列文章先讲述优化算 ...

  4. 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵

    目录 信息熵 条件熵 相对熵 交叉熵 总结 一  信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...

  5. 通俗易懂详解机器学习中的最大似然估计

    讲解前看个例子: 例子(一个场景): 1.一个盒子里有很多小球,颜色有白色(用w表示)和黑色(用b表示). 条件:(1) 盒子里面小球很多,n个. (2) 只有2中颜色的小球 2. 从盒子里取出来10 ...

  6. 详解机器学习中常见的距离与Python实现

    在机器学习的很多算法,尤其是与聚类相关的算法中你会碰到各种各样的距离,欧式距离.马氏距离.切比雪夫距离等会让初学者头疼,如果只看书的话,大多书上就一行公式带过,看完还是迷迷糊糊,今天本文就来盘一盘机器 ...

  7. 详解机器学习中 ROC曲线、AUC值、正确率、召回率

    文章目录 前言简介 医学图像识别二分类问题 ROC 曲线 如何画ROC曲线 AUC 前言简介 在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度.错误率指的是在所有测试样例中错分的样例比例 ...

  8. 详解机器学习中的熵、条件熵、相对熵、交叉熵

    欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (info ...

  9. What is the Softmax Function?详解机器学习中的Softmax函数【小白菜可懂】

    目录 定义 公式 计算 Softmax vs Sigmoid Softmax vs Sigmoid 计算 Softmax vs Argmax Softmax vs Argmax 计算 应用 神经网络中 ...

  10. K-means,K-means++方法详解-机器学习分类问题常见算法

    文章目录 基本介绍 算法步骤 伪代码 距离计算方法 算法优缺点 优点 缺点 K-means++ 听说点进蝈仔帖子的都喜欢点赞加关注~~ 感谢知乎: https://zhuanlan.zhihu.com ...

最新文章

  1. haproxy+keepalived应用实战
  2. 《集体智慧编程》第二章(一)
  3. JProfiler9安装 监控Tomcat
  4. [Hadoop in China 2011] HBase在淘宝平台上的应用和改进经验
  5. Visual Studio Code如何打开多个tab标签
  6. 如何进入交换机配置命令窗口
  7. 停车场管理系统 Java语言
  8. html 给表格添加背景,HTML中新建表格怎么加背景
  9. java制作闪星星_three.js制作星球和星星闪烁的简单示例
  10. MSP430F149单片机-IAP升级
  11. 印度软件与信息服务业发展经验及启示
  12. 陈松松:视频营销老司机,教你6步轻松剪辑视频
  13. win10电脑蓝屏自动修复失败无法开机的解决
  14. sql server数据修复语句
  15. css中indent是什么意思,css文本属性中的text-indent的解析
  16. 1468:OKR-Periods of Words(kmp算法)
  17. Visual Studio 2010带来的新机遇、新特性和新动力
  18. 使用蒙特卡洛技术解决一个小虫爬铁丝问题。
  19. 制作导出App各尺寸图标:appicontemplace
  20. leetcode 29.两数相除

热门文章

  1. FPGA之SDRAM控制器设计(二)
  2. element-vue admin 右击路由选项 利用fullscreen实现全局页面全屏
  3. 基于arduino制作激光电子竖琴
  4. 给定经纬度计算距离_根据两点经纬度计算距离
  5. 锐捷交换机基本功能配置
  6. C#编程--ribbon界面介绍
  7. python k线斜率计算公式_通达信K线斜率指标公式
  8. 利用Java编写自动关机程序(包括输入、输出、控制电脑自动关机)
  9. 【锐捷交换机】清除密码
  10. Ubuntu安装客户端RabbitVCS(svn管理)