1 引言

机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。随着各行业对数据的需求量增多,对处理和分析数据的效率要求变高,一系列机器学习算法应运而生。机器学习算法主要是指通过数学及统计方法求解最优化问题的步骤和过程。针对不同的数据和不同模型需求,选择和使用适当的的机器学习算法可以更高效地解决一些实际问题。本文将从机器学习的起源出发,逐步介绍70多年来机器学习领域的若干重大突破及国内外研究现状,并指出未来机器学习算法面临的挑战。

2 机器学习发展简史

机器学习最早可以追溯到对人工神经网络的研究。1943年,Warren McCulloch和Wallter Pitts提出了神经网络层次结构模型[1],确立了神经网络的计算模型理论,从而为机器学习的发展奠定了基础。1950年,“人工智能之父”图灵提出了著名的“图灵测试”,使人工智能成为了科学领域的一个重要研究课题。

1957年,康奈尔大学教授Frank Rosenblatt提出了Perceptron概念,并且首次用算法精确定义了自组织自学习的神经网络数学模型,设计出了第一个计算机神经网络。这个机器学习算法成为了神经网络模型的开山鼻祖[2]。1959年美国IBM公司的A.M.Samuel设计了一个具有学习能力的跳棋程序,曾经战胜了美国保持8年不败的冠军。这个程序向人们初步展示了机器学习的能力。

1962年,Hubel和Wiesel发现了猫脑皮层中独特的神经网络结构可以有效降低学习的复杂性,从而提出著名的Hubel-Wiese生物视觉模型,这之后提出的神经网络模型均受此启迪。

1969年,人工智能研究的先驱者Marvin Minsky和Seymour Papert出版了对机器学习研究有深远影响的著作《Perceptron》,其中对于机器学习基本思想的论断:解决问题的算法能力和计算复杂性,影响深远且延续至今。

1980年夏,在美国卡内基梅隆大学举行了第一届机器学习国际研讨会,标志着机器学习研究在世界范围内兴起。1986年,《Machine Learning》创刊,标志着机器学习逐渐为世人瞩目并开始加速发展。

1986年,Rumelhart,Hinton和Williams联合在《自然》杂志发表了著名的反向传播算法(BP)。1989年,美国贝尔实验室学者Yann和LeCun教授提出了目前最为流行的卷积神经网络(CNN)计算模型,推导出基于BP算法的高效训练方法,并成功地应用于英文手写体识别。

进入90年代,多浅层机器学习模型相继问世,诸如逻辑回归,支持向量机等,这些机器学习算法的共性是数学模型为凸代价函数的最优化问题,理论分析相对简单,容易从训练样本中学习到内在模式,来完对象识别,人物分配等初级智能工作。

2006年,机器学习领域泰斗Geoffrey Hinton和Ruslan Salakhutdinov发表文章[3],提出了深度学习模型。主要论点包括:多个隐层的人工神经网络具有良好的特征学习能力;通过逐层初始化来克服训练的难度,实现网络整体调优。这个模型的提出,开启了深度网络机器学习的新时代。2012年,Hinton研究团队采用深度学习模型赢得了计算机视觉领域最具有影响力的ImageNet 比赛冠军,标志着深度学习进入第二阶段。

深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译,苹果语音工具siri,微软的Cortana个人语音助手,蚂蚁金服的Smile to Pay扫脸技术[4]。特别是2016年3月,谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGo Zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈。

3机器学习算法研究现状

3.1分类算法

1.支持向量机分类。Lau等[5]为SVM提出一种在线学习算法,用于处理按顺序逐渐提供输入数据的分类问题。该算法速度快,所用的支持向量个数少,具有强泛化能力。Laskov等[6]提出一种快速,数值稳定和鲁棒的增量支持向量机学习方法。Huang等[7]提出一种大边缘分类器,与其他大边缘分类器或局部构建分离超平面不同,该模型能局部和全局地判定边界。Kim等[8]提出适用于大数据的特征提取和分类算法。

2.决策树分类。传统决策树作为一种经典的分类学习算法,对大数据处理存在内

存开销过大的问题。Franco-Arcega等[9]提出一种从大规模数据中构造决策树的方法,解决当前算法中的一些限制条件,可利用所有的训练集数据,但不需将它们都保存在内存中。 Yang等[10]提出一种增量优化的快速决策树算法用于处理带有噪音的大数据。与传统的挖掘大数据的决策树算法相比,该算法的主要优势是实时挖掘能力,这使得当移动数据流是无限时,它能存储完整的数据用于再训练决策模型。 Ben-Haim等[11]提出一种构建决策树分类器的算法。该算法在分布式环境中运行,适用于大数据集和流数据,与串行决策树相比,在精度误差近似的前提下能提高效率。

3.神经网络与极端学习机。传统前馈神经网络一般采用梯度下降算法调整权值参数,学习速度慢、泛化性能差等问题是制约前馈神经网络应用的瓶颈。Huang等[12]摒弃梯度下降算法的迭代调整策略,提出ELM。该方法随机赋值单隐层神经网络的输入权值和偏差项,并通过一步计算即可解析求出网络的输出权值。相比于传统前馈神经网络训练算法需经多次迭代调整才可最终确定网络权值,ELM 的训练速度获得较显著提升。

3.2聚类算法

聚类学习是最早被用于模式识别及数据挖掘任务的方法之一,并且被用来研究各种应用中的大数据库,因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类,该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法,在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架,并引入分布式数据预处理、协同聚类等方法,在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难,指出模糊技术在处理大数据上的有效性,研究抽样和增量在大数据上运行C-mean的作用。

3.3特征选择算法

在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据对象往往是大数据集,其中包含的属性数和记录数都很大,导致处理算法的执行效率低下。通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。Kolda[20]提出一种内存使用高效的Tucker分解方法用于解决传统的张量分解算法无法解决的时间和空间利用问题。Quevedo等[21]基于输入变量的有用性,采用经典技术的简单组合,如相关性和正交性,提出一种输入变量排名算法,用于大数据降维和特征提取,取得良好效果。Gheyas等[22]结合模拟退火算法、遗传算法、贪心算法及神经网络算法的优点,提出一种模拟退火和遗传算法混合算法用于解决选择最优化特征子集的NP时间问题。Pal等[23]提出一种基于SVM的用于分类的特征选择方法,Sun等[24]提出一种用于分类的特征选择算法。该算法利用局部学习理论首先将复杂的非线性问题转换为一组线性问题,然后在最大间隔的框架下学习特征关联性。Hua等[25]对比一些现有的特征选择方法,提出一种特征标签分布式模型。

4相关研究人员,期刊及会议

机器学习及其算法在国内外备受瞩目,许多优秀的科研及技术人员致力于此。一些机器学习相关的期刊及会议应运而生,集中收录了大批高质量的论文,汇聚了一些创新性前瞻性的思想。这一部分我将以表格的形式对部分国内外杰出的致力于机器学习及其算法的研究人员,收录优秀机器学习论文的期刊及会议进行总结整理。

姓名

就职单位

研究方向

代表论文/书著

吴恩达

斯坦福大学教授

百度首席科学家

深度学习

机器学习

人工智能

《Deep Learning with COTS HPC Systems》,《Parsing with Compositional Vector Grammars》

林轩田

台湾大学

Appier首席数据科学家

机器学习

数据科学

《Learning from Data: A Short Course》,《Machine Learning Techniques》

周志华

南京大学教授

长江学者

杰青

人工智能

机器学习

数据挖掘

《机器学习》,《Ensemble Methods: Foundations and Algorithms》,《神经网络集成》

李航

华为诺亚方舟实验室,首席科学家,实验室主任

信息检索,自然语言处理,统计机器学习及数据挖掘

《统计学习方法》,《A Short Introduction toLearning to Rank》

蔡登

浙江大学教授

机器学习,计算机视觉,数据挖掘及信息检索

《Deep feature based contextual model for object detection》,《信息协同过滤》

万小军

北京大学教授

文本挖掘

自然语言处理

《Co-training for cross-lingual sentiment classification》,《文档聚类中k-means算法的一种改进算法》

吴军

原腾讯副总裁

语音识别、自然语言处理

《数学之美》,《浪潮之巅》,《文明之光》

张钹

清华大学人工智能研究院院长

人工智能理论

人工神经网络

遗传算法,模式识别

《Theory and Applications of Problem solving》,《人工神经网络理论及应用》

表1 国内机器学习杰出研究工作者(部分)

姓名

就职单位

研究方向

代表论文/书著

Yoshua

Bengio

Canadian Institute for Advanced Research

计算机科学

人工神经网络

深度学习

《Learning deep architectures for AI》

Yann LeCun

New York University

机器学习

计算机视觉

移动机器人

计算神经科学

《Gradient-based learning applied to document recognition》

Alpaydin,E

Bogaziçi University

深度学习

机器学习

《Introduction to Machine Learning》

DavidE. Goldberg

University of Illinois at Urbana-Champaign

机器学习

遗传算法

优化

《Genetic algorithms and machine learning》

Christophe Andrieu

the University of Bristol

统计科学

机器学习

《An introduction to MCMC for machine learning》

Robert Holte

the University of Alberta

机器学习

智能路由

网络信息访问

《Machine learning for the detection of oil spills in satellite radar images》

Geoffrey Hinton

Google

the University of Toronto

神经网络

机器学习

《Imagenet classification with deep convolutional neural networks》

表2 国际机器学习杰出研究工作者(部分)

  1. 《计算机学报》
  2. 《软件学报》
  3. 《电子学报》
  4. 《模式识别与人工智能》
  5. 《计算机科学》
  6. ournal of Machine Learning Research
  7. Machine Learning
  8. Artificial Intelligence

(9)Journal of Artificial Intelligence Research

  1. 中国机器学习会议(CCML)
  2. International Conference on Machine Learning (ICML)国际机器学习会议
  3. American Association for AI National Conference(AAAI)美国人工智能协会
  4. International Conference on Computer Vision (ICCV)计算机视觉国际会议

(4)Asian Conference on Machine Learning (ACML)亚洲机器学习会议

(6)Neural Information Processing Systems 神经信息处理系统(NIPS)

表3 机器学习相关期刊及会议(部分)

5机器学习面临的挑战

目前,以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹,有力地推动了人工智能的发展。但是也应该看到,它毕竟还是一个新生事物,多数结论是通过实验或经验获得,还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann LeCun在2015IEEE 计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习[26]。基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发,虽然深度学习是目前最接近人类大脑的智能学习方法,但是当前的深度网络在结构、功能、机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知,如果要真正模拟人脑的 100 多亿个神经元组成的神经系统,目前还难以实现。因此,对计算神经科学的研究也需要有很长一段路要走。此外,机器学习模型的网络结构、算法及参数越发庞大、复杂,通常只有在大数据量、大计算量支持下才能训练出精准的模型,对运行环境要求越来越高、占用资源也越来越多,这也抬高了其应用门槛。总之,机器学习方兴未艾并且拥有广阔的研究与应用前景,但是面临的挑战也不容忽视,二者交相辉映才能够把机器学习推向更高的境界。

6结束语

本文从机器学习的发展简史谈起,介绍了机器学习算法现阶段的研究情况以及取得的进展,整理了国内外部分优秀学者及相关期刊会议的信息,最后探讨了机器学习面临的挑战。毋庸置疑,机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力。但是更应该看到,机器学习的发展仍然处理初级阶段,目前虽然有各种各样机器学习算法但却无法从根本上解决机器学习所面临的壁垒,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能。因此对于机器学习我们还有很长的一段路要走。

参考文献

  1. Warren McCulloch and Wallter Pitts.A logical calculus of the ideas immanentin nervous activity.The bulletin of mathematical biophysics,1943,5(4):115-113.
  2. 张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报(自然科学版),2016,23(02):10-18+24.
  3. Geoffrey E Hinton,Salakhutdinov RR.Reducing the dimensionally of data with neural networks.Science,2006,313(5786):504-7
  4. 何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04):327-336.
  5. Lau K W,Wu Q H.Online Training of Support Vector Classifier.Pattern Recognition,2003,365(8)

1913-1920

  1. Laskov P,Gehl C,Kruger S.Incremental Support Vector Learning:Analysis,Implementation and Application[J].Machine Learning Research,2006,7:1909-1936.
  2. Huang K,Yang H,King L ,Maxi-Min Margin Machine:Learning Large Margin Classifiers Locally and Globally.IEEE Trans on Neural Networks,2008,19(2):260-272
  3. Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505-512
  4. Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649-664
  5. Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 36-44
  6. Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research,2010,11: 849-872
  7. Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 - 501
  8. Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505-512
  9. Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649-664
  10. Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 36-44
  11. Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm. Journal of Machine Learning Research,2010,11: 849-872
  12. Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 - 501
  13. Havens T C,Bezdek J C,Leckie C,et al.Fuzzy c-means Algorithms for Very Large Data..IEEE Trans on Fuzzy Systems,2012,20(6): 1130-1146
  14. Xue Z H,Shen G,Li J H,et al.Compression-Aware I /O Performance Analysis for Big Data Clustering // Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing,China,2012: 45-52
  15. Hall L O.Exploring Big Data with Scalable Soft Clustering  //  Proc of the 6th International Conference on Soft Methods in Probability and Statistics.Konstanz,Germany,2012:11-15 [16]Zhao W Z,Ma H F,He Q.Parallel k-means Clustering Based on MapReduce / / Proc of the 1st International Conference on Cloud Computing and Big Data.Beijing,China,2009: 674-679
  16. Papadimitriou S,Sun J M. DisCo: Distributed Co-clustering with MapReduce: A Case Study towards Petabyte-Scale End-to-End Mining // Proc of the 8th IEEE International Conference on Data Mining. Pisa,Italy,2008: 512-521
  17. Ferreira C R L,Junior T C,Traina A J M,et al.Clustering Very Large Multi-dimensional Datasets with MapReduce // Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Diego,USA,2011: 690-698
  18. Havens T C,Chitla R,Jain A K,et al. Speedup of Fuzzy and Possibilistic Kernel c-means for Large-Scale Clustering // Proc of the IEEE International Conference on Fuzzy Systems.Taipei,China,2011: 463-470
  19. Kolda T G,Sun J M.Scalable Tensor Decompositions for Multi-aspect Data Mining / / Proc of the 8th IEEE International Conference on Data Mining.Pisa,Italy,2008: 363-372
  20. Quevedo J R,Bahamonde A,Luaces O.A Simple and Efficient Method for Variable Ranking according to Their Usefulness for Learning.Computational Statistics & Data Analysis,2007,52(1): 578-595
  21. Gheyas I A,Smith L S.Feature Subset Selection in Large Dimensionality Domains.Pattern Recognition,2010,43(1): 5 - 13
  22. Pal M,Foody G M.Feature Selection for Classification of Hyperspectral Data by SVM. IEEE Trans on Geoscience and Remote Sensing,2010,48(5): 2297-2307
  23. Sun Y J,Todorovic S,Goodison S.Local-Learning-Based Feature Selection for High-Dimensional Data Analysis.IEEE Trans on Pattern Analysis and Machine Intelligence,2010,32 (9): 1610-1626
  24. Hua J P,Tembe W D,Dougherty E R.Performance of Feature-Selection Methods in the Classification of High-Dimension Data.Pattern Recognition,2009,42(3): 409-424
  25. 王井东,张婷,罗杰波.中国计算机学会通讯.2015,P72.

机器学习发展历史及现状(重要的期刊,会议,大牛总结)相关推荐

  1. SVM发展历史、现状、未来趋势

    SVM(support victor machine) 1.支持向量机发展历史 1963年,Vapnik在解决模式识别问题时提出了支持向量方法.起决定性作用的样本为支持向量1971年,Kimeldor ...

  2. 微型计算机地未来发展,微型计算机的发展历史、现状和未来(最新) PDF.doc

    微型计算机的发展历史.现状及未来 学号:030841019 姓名:向世柱 中文摘要: 计算机自从问世以来,就对世界产生了很大的影响,随之就带来了工业上的一次飞跃,使我们的生活发生了前所未有的一次变革, ...

  3. 显卡的结构和工作原理及发展历史与现状

    显卡的结构和工作原理及发展历史与现状 一.显卡的基本结构 1.线路板. 目前显卡的线路板一般采用的是6层或4层PCB线路板.显卡的线路板是显卡载体,显卡上的所有元器件都是集成在这上面的,所以PCB板也 ...

  4. 【元宇宙】元宇宙(metaverse)的简介(多角度理解与探讨)、发展历史、现状与未来

    High&NewTech:元宇宙(metaverse)的简介(多角度理解与探讨).发展历史.现状与未来 导读:博主曾在去年,2020年9月份撰写了一篇文章<AGI:走向通用人工智能的[哲 ...

  5. 聚类发展历史、现状、未来趋势

    1.发展历史 聚类算法的历史与有监督学习一样悠久.层次聚类算法出现于1963年[26],这是非常符合人的直观思维的算法,现在还在使用.它的一些实现方式,包括SLINK[27],CLINK[28]则诞生 ...

  6. 操作系统:操作系统发展历史与现状

    1.2 操作系统的发展历史       单道批处理时代(50年代) 多道批处理,分时,实时系统时代(60年代初) 多方式系统时代(60-70年代) PC操作系统.网络系统和多机系统时代(70年代后) ...

  7. 国内 CDN 产品发展历史和现状整理

    国内 CDN 发展历史 国外 CloudFlare 进入站长视野 自己第一次接触 CDN 差不多是 2010年 左右,那时候是 CloudFlare 国内比较辉煌的时候,因为那时候 CloudFlar ...

  8. 微型计算机的现状历史未来,微型计算机的发展历史、现状和未来

    介绍了微型计算机系统的基本结构和关键技术,综述了各种微型计算机,尤其是便携式计算机技术的发展现状及趋势,揭示了我国微型计算机市场的持续发展态势 微处理器(Microprocessor),简称μP或MP ...

  9. 机器学习发展历史(符号学习、统计机器学习、深度学习)

    到目前为止,人工智能可以划分为三个阶段:早期的符号学习.九十年代开始的统计机器学习.近年兴起的深度学习. 人工智能早期,机器学习的技术几乎全是符号学习.符号学习的概念很简单,就是用一些特定的符号来表示 ...

最新文章

  1. 【JavaEE WEB 开发】Tomcat 详解 Servlet 入门
  2. linux函数没有返回值导致溢出,Shell中函数返回值超出问题
  3. hadoop集群swap_性能瓶颈--MEM(swap)
  4. 学习Java笔记(一)
  5. java中如何对对象排序?
  6. 怎么看联想计算机的ip,如何查看本机ip
  7. golang 复制对象的正确做法
  8. Neural Networks for Machine Learning by Geoffrey Hinton (1~2)
  9. 某单位配置GRE_×××命令
  10. 位图管理、图片下载缓存、管理图片内存 (三) 在非UI线程中处理位图
  11. mac 修改vmware的NAT网关
  12. 计算机桌面定制操作,教程方法;12、设置桌面--电脑基础知识电脑技巧-琪琪词资源网...
  13. aix7.1重装6.1_优化AIX 6.1性能调整
  14. 在树莓派上安装麦克风监测音量
  15. 一种在外部中心化基础下的网络空间去中心化充盈区块链系统
  16. 苹果CMS v10海螺v6.01模板/附17套苹果cms视频影视网站模板
  17. poi word转html 根号,二次根式计算题-20210402033540.docx-原创力文档
  18. 华师大 OJ 2822
  19. ajax换头像,ajax切换明星头像!
  20. java 建议使用_不建议使用构造函数Date(...)。 这是什么意思? (Java)

热门文章

  1. 通过RK3568实现的NVR方案
  2. 我试过销声匿迹最后却无人问津(人生感悟)
  3. Java对象的持久化,将对象入库保存以及取出转换成对象实例
  4. 批量插入模拟数据入库
  5. php伪协议语法,php文件包含漏洞(input与filter)
  6. java定义接口的关键字_Java中定义接口的关键字是什么?
  7. excel 两组数据交点_如何在百万级的数据里找到别人正在赚钱的项目?【实操长文】...
  8. 微信公众号授权登录weixin4j开发
  9. lcDFS1 深度优先遍历1[记忆化搜索]
  10. 如何手写一个RPC(面试要知道)