机器学习发展历史及现状（重要的期刊，会议，大牛总结）

1 引言

机器学习是指通过计算机学习数据中的内在规律性信息，获得新的经验和知识，以提高计算机的智能性，使计算机能够像人那样去决策。随着各行业对数据的需求量增多，对处理和分析数据的效率要求变高，一系列机器学习算法应运而生。机器学习算法主要是指通过数学及统计方法求解最优化问题的步骤和过程。针对不同的数据和不同模型需求，选择和使用适当的的机器学习算法可以更高效地解决一些实际问题。本文将从机器学习的起源出发，逐步介绍70多年来机器学习领域的若干重大突破及国内外研究现状，并指出未来机器学习算法面临的挑战。

2 机器学习发展简史

机器学习最早可以追溯到对人工神经网络的研究。1943年，Warren McCulloch和Wallter Pitts提出了神经网络层次结构模型[1]，确立了神经网络的计算模型理论，从而为机器学习的发展奠定了基础。1950年，“人工智能之父”图灵提出了著名的“图灵测试”，使人工智能成为了科学领域的一个重要研究课题。

1957年，康奈尔大学教授Frank Rosenblatt提出了Perceptron概念，并且首次用算法精确定义了自组织自学习的神经网络数学模型，设计出了第一个计算机神经网络。这个机器学习算法成为了神经网络模型的开山鼻祖[2]。1959年美国IBM公司的A.M.Samuel设计了一个具有学习能力的跳棋程序，曾经战胜了美国保持8年不败的冠军。这个程序向人们初步展示了机器学习的能力。

1962年，Hubel和Wiesel发现了猫脑皮层中独特的神经网络结构可以有效降低学习的复杂性，从而提出著名的Hubel-Wiese生物视觉模型，这之后提出的神经网络模型均受此启迪。

1969年，人工智能研究的先驱者Marvin Minsky和Seymour Papert出版了对机器学习研究有深远影响的著作《Perceptron》，其中对于机器学习基本思想的论断：解决问题的算法能力和计算复杂性，影响深远且延续至今。

1980年夏，在美国卡内基梅隆大学举行了第一届机器学习国际研讨会，标志着机器学习研究在世界范围内兴起。1986年，《Machine Learning》创刊，标志着机器学习逐渐为世人瞩目并开始加速发展。

1986年，Rumelhart，Hinton和Williams联合在《自然》杂志发表了著名的反向传播算法（BP）。1989年，美国贝尔实验室学者Yann和LeCun教授提出了目前最为流行的卷积神经网络（CNN）计算模型，推导出基于BP算法的高效训练方法，并成功地应用于英文手写体识别。

进入90年代，多浅层机器学习模型相继问世，诸如逻辑回归，支持向量机等，这些机器学习算法的共性是数学模型为凸代价函数的最优化问题，理论分析相对简单，容易从训练样本中学习到内在模式，来完对象识别，人物分配等初级智能工作。

2006年，机器学习领域泰斗Geoffrey Hinton和Ruslan Salakhutdinov发表文章[3]，提出了深度学习模型。主要论点包括：多个隐层的人工神经网络具有良好的特征学习能力；通过逐层初始化来克服训练的难度，实现网络整体调优。这个模型的提出，开启了深度网络机器学习的新时代。2012年，Hinton研究团队采用深度学习模型赢得了计算机视觉领域最具有影响力的ImageNet 比赛冠军，标志着深度学习进入第二阶段。

深度学习近年来在多个领域取得了令人赞叹的成绩，推出了一批成功的商业应用，诸如谷歌翻译，苹果语音工具siri，微软的Cortana个人语音助手，蚂蚁金服的Smile to Pay扫脸技术[4]。特别是2016年3月，谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜。2017年10月18日，DeepMind团队公布了最强版AlphaGo，代号AlphaGo Zero，它能在无任何人类输入的条件下，从空白状态学起，自我训练的时间仅为3天，自我对弈的棋局数量为490万盘，能以100:0的战绩击败前辈。

3机器学习算法研究现状

3.1分类算法

1.支持向量机分类。Lau等[5]为SVM提出一种在线学习算法，用于处理按顺序逐渐提供输入数据的分类问题。该算法速度快，所用的支持向量个数少，具有强泛化能力。Laskov等[6]提出一种快速，数值稳定和鲁棒的增量支持向量机学习方法。Huang等[7]提出一种大边缘分类器，与其他大边缘分类器或局部构建分离超平面不同，该模型能局部和全局地判定边界。Kim等[8]提出适用于大数据的特征提取和分类算法。

2.决策树分类。传统决策树作为一种经典的分类学习算法，对大数据处理存在内

存开销过大的问题。Franco-Arcega等[9]提出一种从大规模数据中构造决策树的方法，解决当前算法中的一些限制条件，可利用所有的训练集数据，但不需将它们都保存在内存中。 Yang等[10]提出一种增量优化的快速决策树算法用于处理带有噪音的大数据。与传统的挖掘大数据的决策树算法相比，该算法的主要优势是实时挖掘能力，这使得当移动数据流是无限时，它能存储完整的数据用于再训练决策模型。 Ben-Haim等[11]提出一种构建决策树分类器的算法。该算法在分布式环境中运行，适用于大数据集和流数据，与串行决策树相比，在精度误差近似的前提下能提高效率。

3.神经网络与极端学习机。传统前馈神经网络一般采用梯度下降算法调整权值参数，学习速度慢、泛化性能差等问题是制约前馈神经网络应用的瓶颈。Huang等[12]摒弃梯度下降算法的迭代调整策略，提出ELM。该方法随机赋值单隐层神经网络的输入权值和偏差项，并通过一步计算即可解析求出网络的输出权值。相比于传统前馈神经网络训练算法需经多次迭代调整才可最终确定网络权值，ELM 的训练速度获得较显著提升。

3.2聚类算法

聚类学习是最早被用于模式识别及数据挖掘任务的方法之一，并且被用来研究各种应用中的大数据库，因此用于大数据的聚类算法受到越来越多的关注。Havens等[13]对比3种扩展的模糊c均值(FCM)聚类算法对于大数据的执行效率。Xue等[14]提出一种压缩感知性能提升模型用于大数据聚类，该模型定量分析整个计算过程中与压缩有关的诸多因素的影响。Hall等[15]研究二次抽样方法以提高聚类算法的可扩展性。Zhao等[16]提出基于MapReduce的 K-means算法，在speedup、sizeup、scaleup这3个指标上获得较好的并行性能。Papadimitriou等[17]给出一种利用MapReduce模型实现协同聚类的系统框架—分布式协同聚类框架，并引入分布式数据预处理、协同聚类等方法，在Hadoop上实现该系统。Ferreira 等[18]给出一种利用MapReduce开展大规模数据聚类的方法。Havens等[19]分析在大数据上运行C-mean的困难，指出模糊技术在处理大数据上的有效性，研究抽样和增量在大数据上运行C-mean的作用。

3.3特征选择算法

在数据挖掘、文档分类和多媒体索引等新兴领域中，所面临的数据对象往往是大数据集，其中包含的属性数和记录数都很大，导致处理算法的执行效率低下。通过属性选择可剔除无关属性，增加分析任务的有效性，从而提高模型精度，减少运行时间。Kolda[20]提出一种内存使用高效的Tucker分解方法用于解决传统的张量分解算法无法解决的时间和空间利用问题。Quevedo等[21]基于输入变量的有用性，采用经典技术的简单组合，如相关性和正交性，提出一种输入变量排名算法，用于大数据降维和特征提取，取得良好效果。Gheyas等[22]结合模拟退火算法、遗传算法、贪心算法及神经网络算法的优点，提出一种模拟退火和遗传算法混合算法用于解决选择最优化特征子集的NP时间问题。Pal等[23]提出一种基于SVM的用于分类的特征选择方法，Sun等[24]提出一种用于分类的特征选择算法。该算法利用局部学习理论首先将复杂的非线性问题转换为一组线性问题，然后在最大间隔的框架下学习特征关联性。Hua等[25]对比一些现有的特征选择方法，提出一种特征标签分布式模型。

4相关研究人员，期刊及会议

机器学习及其算法在国内外备受瞩目，许多优秀的科研及技术人员致力于此。一些机器学习相关的期刊及会议应运而生，集中收录了大批高质量的论文，汇聚了一些创新性前瞻性的思想。这一部分我将以表格的形式对部分国内外杰出的致力于机器学习及其算法的研究人员，收录优秀机器学习论文的期刊及会议进行总结整理。

姓名	就职单位	研究方向	代表论文/书著
吴恩达	斯坦福大学教授百度首席科学家	深度学习机器学习人工智能	《Deep Learning with COTS HPC Systems》，《Parsing with Compositional Vector Grammars》
林轩田	台湾大学 Appier首席数据科学家	机器学习数据科学	《Learning from Data: A Short Course》，《Machine Learning Techniques》
周志华	南京大学教授长江学者杰青	人工智能机器学习数据挖掘	《机器学习》，《Ensemble Methods: Foundations and Algorithms》，《神经网络集成》
李航	华为诺亚方舟实验室，首席科学家，实验室主任	信息检索，自然语言处理，统计机器学习及数据挖掘	《统计学习方法》，《A Short Introduction toLearning to Rank》
蔡登	浙江大学教授	机器学习，计算机视觉，数据挖掘及信息检索	《Deep feature based contextual model for object detection》，《信息协同过滤》
万小军	北京大学教授	文本挖掘自然语言处理	《Co-training for cross-lingual sentiment classification》，《文档聚类中k-means算法的一种改进算法》
吴军	原腾讯副总裁	语音识别、自然语言处理	《数学之美》，《浪潮之巅》，《文明之光》
张钹	清华大学人工智能研究院院长	人工智能理论人工神经网络遗传算法,模式识别	《Theory and Applications of Problem solving》，《人工神经网络理论及应用》

表1 国内机器学习杰出研究工作者（部分）

姓名	就职单位	研究方向	代表论文/书著
Yoshua Bengio	Canadian Institute for Advanced Research	计算机科学人工神经网络深度学习	《Learning deep architectures for AI》
Yann LeCun	New York University	机器学习计算机视觉移动机器人计算神经科学	《Gradient-based learning applied to document recognition》
Alpaydin,E	Bogaziçi University	深度学习机器学习	《Introduction to Machine Learning》
DavidE. Goldberg	University of Illinois at Urbana-Champaign	机器学习遗传算法优化	《Genetic algorithms and machine learning》
Christophe Andrieu	the University of Bristol	统计科学机器学习	《An introduction to MCMC for machine learning》
Robert Holte	the University of Alberta	机器学习智能路由网络信息访问	《Machine learning for the detection of oil spills in satellite radar images》
Geoffrey Hinton	Google the University of Toronto	神经网络机器学习	《Imagenet classification with deep convolutional neural networks》

表2 国际机器学习杰出研究工作者（部分）

期

刊

《计算机学报》
《软件学报》
《电子学报》
《模式识别与人工智能》
《计算机科学》
ournal of Machine Learning Research
Machine Learning
Artificial Intelligence

(9)Journal of Artificial Intelligence Research

会

议

中国机器学习会议(CCML)
International Conference on Machine Learning (ICML)国际机器学习会议
American Association for AI National Conference(AAAI)美国人工智能协会
International Conference on Computer Vision (ICCV)计算机视觉国际会议

(4)Asian Conference on Machine Learning (ACML)亚洲机器学习会议

(6)Neural Information Processing Systems 神经信息处理系统(NIPS)

表3 机器学习相关期刊及会议（部分）

5机器学习面临的挑战

目前，以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹，有力地推动了人工智能的发展。但是也应该看到，它毕竟还是一个新生事物，多数结论是通过实验或经验获得，还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann LeCun在2015IEEE 计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习[26]。基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发，虽然深度学习是目前最接近人类大脑的智能学习方法，但是当前的深度网络在结构、功能、机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知，如果要真正模拟人脑的 100 多亿个神经元组成的神经系统，目前还难以实现。因此，对计算神经科学的研究也需要有很长一段路要走。此外，机器学习模型的网络结构、算法及参数越发庞大、复杂，通常只有在大数据量、大计算量支持下才能训练出精准的模型，对运行环境要求越来越高、占用资源也越来越多，这也抬高了其应用门槛。总之，机器学习方兴未艾并且拥有广阔的研究与应用前景，但是面临的挑战也不容忽视，二者交相辉映才能够把机器学习推向更高的境界。

6结束语

本文从机器学习的发展简史谈起，介绍了机器学习算法现阶段的研究情况以及取得的进展，整理了国内外部分优秀学者及相关期刊会议的信息，最后探讨了机器学习面临的挑战。毋庸置疑，机器学习作为人工智能的一个重要分支，目前在诸多领域取得了巨大进展，并且展示出强大的发展潜力。但是更应该看到，机器学习的发展仍然处理初级阶段，目前虽然有各种各样机器学习算法但却无法从根本上解决机器学习所面临的壁垒，机器学习仍然主要依赖监督学习，还没有跨越弱人工智能。因此对于机器学习我们还有很长的一段路要走。

参考文献

Warren McCulloch and Wallter Pitts.A logical calculus of the ideas immanentin nervous activity.The bulletin of mathematical biophysics,1943,5(4):115-113.
张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报(自然科学版),2016,23(02):10-18+24.
Geoffrey E Hinton,Salakhutdinov RR.Reducing the dimensionally of data with neural networks.Science,2006,313(5786):504-7
何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04):327-336.
Lau K W,Wu Q H.Online Training of Support Vector Classifier.Pattern Recognition,2003,365(8)

1913-1920

Laskov P,Gehl C,Kruger S.Incremental Support Vector Learning:Analysis,Implementation and Application[J].Machine Learning Research,2006,7:1909-1936.
Huang K,Yang H,King L ,Maxi-Min Margin Machine:Learning Large Margin Classifiers Locally and Globally.IEEE Trans on Neural Networks,2008,19(2):260－272
Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505－512
Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649－664
Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing，China，2012: 36－44
Ben-Haim Y，Tom-Tov E． A Streaming Parallel Decision Tree Algorithm． Journal of Machine Learning Ｒesearch,2010,11: 849－872
Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 － 501
Kim B J.A Classifier for Big Data//Proc of the 6th International Conference on Covergence and Hybrid Information Technology.Daejeon,Republic of Korea,2012:505－512
Franco-Arcega A,Carrasco-Ochoa J A,Sánchez-Díaz G,et al.Building Fast Decision Trees from Large Training Sets.Intelligent Data Analysis,2012,16(4): 649－664
Hang Y,Fong S.Incrementally Optimized Decision Tree for Noisy Big Data / / Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications.Beijing，China，2012: 36－44
Ben-Haim Y，Tom-Tov E． A Streaming Parallel Decision Tree Algorithm． Journal of Machine Learning Ｒesearch,2010,11: 849－872
Huang G B,Zhu Q Y,Siew C K.Extreme Learning Machine:Theory and Applications.Neurocomputing,2006,70 ( 1 /2 /3 ): 489 － 501
Havens T C,Bezdek J C,Leckie C,et al.Fuzzy c-means Algorithms for Very Large Data．.IEEE Trans on Fuzzy Systems,2012,20(6): 1130－1146
Xue Z H,Shen G,Li J H，et al．Compression-Aware I /O Performance Analysis for Big Data Clustering // Proc of the 1st International Workshop on Big Data,Streams and Heterogeneous Source Mining: Algorithms,Systems,Programming Models and Applications．Beijing,China，2012: 45－52
Hall L O．Exploring Big Data with Scalable Soft Clustering // Proc of the 6th International Conference on Soft Methods in Probability and Statistics．Konstanz,Germany,2012:11－15 [16]Zhao W Z,Ma H F，He Q．Parallel k-means Clustering Based on MapＲeduce / / Proc of the 1st International Conference on Cloud Computing and Big Data．Beijing,China,2009: 674－679
Papadimitriou S，Sun J M． DisCo: Distributed Co-clustering with MapＲeduce: A Case Study towards Petabyte-Scale End-to-End Mining // Proc of the 8th IEEE International Conference on Data Mining． Pisa，Italy，2008: 512－521
Ferreira C Ｒ L,Junior T C,Traina A J M，et al．Clustering Very Large Multi-dimensional Datasets with MapＲeduce // Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining．San Diego,USA,2011: 690－698
Havens T C,Chitla Ｒ,Jain A K,et al． Speedup of Fuzzy and Possibilistic Kernel c-means for Large-Scale Clustering // Proc of the IEEE International Conference on Fuzzy Systems．Taipei,China,2011: 463－470
Kolda T G，Sun J M．Scalable Tensor Decompositions for Multi-aspect Data Mining / / Proc of the 8th IEEE International Conference on Data Mining．Pisa,Italy,2008: 363－372
Quevedo J Ｒ,Bahamonde A,Luaces O．A Simple and Efficient Method for Variable Ｒanking according to Their Usefulness for Learning．Computational Statistics ＆ Data Analysis，2007,52(1): 578－595
Gheyas I A，Smith L S．Feature Subset Selection in Large Dimensionality Domains．Pattern Ｒecognition,2010,43(1): 5 － 13
Pal M,Foody G M．Feature Selection for Classification of Hyperspectral Data by SVM． IEEE Trans on Geoscience and Ｒemote Sensing,2010,48(5): 2297－2307
Sun Y J,Todorovic S,Goodison S.Local-Learning-Based Feature Selection for High-Dimensional Data Analysis．IEEE Trans on Pattern Analysis and Machine Intelligence，2010,32 (9): 1610－1626
Hua J P，Tembe W D,Dougherty E Ｒ．Performance of Feature-Selection Methods in the Classification of High-Dimension Data．Pattern Ｒecognition,2009,42(3): 409－424
王井东，张婷，罗杰波．中国计算机学会通讯．2015，P72．