从今日起,正式开启AI之路,在人工智能学习领域,无论机器学习还是深度学习,统计学习是入门的最好参考教材,是不可或缺的。因此,这漫漫求索之路,就从统计学习开始吧。
我所选择的是李航所著的统计学习(第二版),计划将我对本书的自学总结或心得,能及时地在此发布,希望能在业余时间里用一年甚至更短的时间内完成此书的学习。
Now,Let’s GO!

统计学习的特点

统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与 分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指机器学习。

统计学习的对象

统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于他们具有统计规律性,所以可以用概率统计方法处理它们。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。

统计学习的目的

统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获得新的知识,给人们带来新的发型。
对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

统计学习的方法

统计及学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)等组成。监督学习和无监督学习是最主要的统计学习。
统计学习方法可以概况如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下进行最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择模型;
(6)利用学习的最优模型对新数据进行预测或分析。

统计学习的研究

统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。

统计学习的重要性

近年来,统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。
统计学习学科在科学技术中的重要性主要体现在以下几个方面:
(1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具。
(2)统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究表明,利用统计学习模仿人类智能的方法,虽有一定的局限性,还是实现这一目标的最有效的手段。
(3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维度,并在其中起着核心作用。

生如夏花之绚烂,死如秋叶之静美

AI之路(二)——关于统计学习(statistical learning)Part 1 概论相关推荐

  1. Statistical learning Week 1 什么是统计学习?

    2016-10-14 关于这门课 这门课使用的教材主要是<An Introduction to Statistical Learning with Applications in R>,老 ...

  2. 机器学习和统计学习的区别:10个统计分析方法

    来源:THU数据派(ID:datapi) 无论你在数据科学中是何种立场,你都无法忽视数据的重要性,数据科学家的职责就是分析.组织和应用这些数据. 著名求职网站 Glassdoor 根据庞大的就业数据和 ...

  3. 一.统计学习(统计机器学习)

    自嗨 本人目前是一名统计学在读本科生,统计学作为当代火爆的一门专业,在生活中也发挥了很多重要的作用,目前的大数据.预测等等都需要用到统计学的知识.因此,我决定在csdn上面也更新一些关于统计学的专栏. ...

  4. 统计学习之路|(一)统计学习理论与方法概述

    统计学习之路|(一)统计学习理论与方法概述   各位小伙伴们大家好!经过一段时间的思考,我决定将开更一个"天坑系列":统计学习之路.希望自己能够坚持更下去.   之所以称之为&qu ...

  5. 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

    来源:专知 本文约3400字,建议阅读10+分钟. 免费开源人工智能手册,带你快速上手写代码! [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内 ...

  6. 统计学习导论 Chapter2--What Is Statistical Learning?

    Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ ...

  7. 统计学习二:数据的描述性统计

    参加此统计学习小组主要是巩固 python 语言,故所有笔记都以 python 代码实现. 完整代码见 github : StatisticLearning 如何描述数据的分布?可以从以下三个方面来描 ...

  8. 体验AI乐趣:基于AI Gallery的二分类猫狗图片分类小数据集自动学习

    摘要:直接使用AI Gallery里面现有的数据集进行自动学习训练,很简单和方便,节约时间,不用自己去训练了,AI Gallery 里面有很多类似的有趣数据集,也非常好玩,大家一起试试吧. 本文分享自 ...

  9. 统计学习(二)朴素贝叶斯分类

    一.什么是贝叶斯 英国数学家贝叶斯提出了贝叶斯公式用来描述两个条件概率之间的关系,抛出公式如下: 公式指出了在事件B发生的情况下事件A发生的概率,通过贝叶斯公式转换可以利用右边的P(A)和P(B|A) ...

最新文章

  1. Java统计1到300_java程序员的从0到1:统计某字符串在某文件中出现的次数(面试题)...
  2. [Flash开发笔记] 关于Flash中的ASO文件
  3. appium java简单实例_Appium创建一个Note的实例
  4. 离散数学图论旅行规划问题_《图论及其应用》(一)
  5. 两个字和三个字一样宽_武汉国庆出行 记好三个字
  6. 基于MonteCarlo法的经典射击问题中的杀伤概率估计问题
  7. 三十年中国GIS基础软件市场回顾与发展展望
  8. python excel区域截图
  9. android发送短信验证码并自动获取验证码填充文本框
  10. c++while循环
  11. Rendezvous on a Tetrahedron (模拟)
  12. iOS - 苹果审核被拒3.2(f)
  13. web前端开发免费教程
  14. SQL语法中Order by的用法
  15. Layui数据表格隔行变色的两种方法
  16. #幻方#明汯#九坤#鸣石#天演#进化论#佳期#量化研究员#C++#量化#量化私募#量化企业#量化投资#量化基金#机器学习#量化市场#量化期权#量化交易岗#量化数据岗#量化运维#量化可转债研究员#深
  17. Python:strip() 函数
  18. U盘格式化后如何恢复数据?
  19. HDOJ 1282 回文数猜想
  20. Java中函数及递归的使用(附思维导图)——java面试知识点

热门文章

  1. SONICWALL防火墙 L2TP ×××配置方法
  2. GitHub镜像站下载文件或克隆仓库
  3. 开一家水果店需要哪些设备,开水果店需要的设备有哪些
  4. 保护8亿终端 阿里聚安全携手信通院打造B2C资金安全闭环 1
  5. 常用芯片型号功能汇总
  6. java jython 调用_如何从Jython调用由Java类执行的Java方法?
  7. MSYS2 介绍与使用
  8. 【python之操作注册表】Python删除注册表节点下的值
  9. 【强化学习论文】Decision Transformer:通过序列建模进行强化学习
  10. [教程] Ubuntu16.04系统安装Open3D