机器学习:数据驱动的科学
引言:传统上,计算机会按照我们输入的指令一步步执行。而机器学习却是通过输入数据而不是指令来进行各种工作。
本文选自《深入浅出深度学习:原理剖析与Python实践》。
机器学习,也被称为统计机器学习,是人工智能领域的一个分支,其基本思想是基于数据构建统计模型,并利用模型对数据进行分析和预测的一门学科。
传统上,如果想让计算机工作,我们会编写一段指令,然后让计算机遵照这个指令一步一步执行下去。而机器学习则是采用另一种解决问题的思路,机器学习解决问题的方式不是通过输入指令逻辑,而是通过输入的数据,也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。
机器学习最基本的做法是使用算法来解析数据,从数据中学习到规律,并掌握这种规律,然后对真实世界中的事件做出决策或预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习的核心是使用大量的数据来训练,通过各种算法从数据中学习如何完成任务。机器学习直接来源于早期的人工智能领域,在模式识别和计算机学习理论的研究中逐渐发展,并最终形成一门新的学科。与人工智能类似,机器学习也是一个跨学科的领域,涉及多个基础学科,包括统计学、线性代数和数值计算等。
机器学习是基于训练数据构建统计模型,从而使计算机具有对新数据进行预测和分析的能力,机器学习方法按其实现的目标不同,可以分为:监督学习、无监督学习和强化学习。
监督学习(Supervised Learning):监督学习使用带有标签的训练数据集进行训练,输入的训练数据由物体的特征向量(输入)和物体的标签(输出)两部分构成,其中,若输出的标签是一个连续的值,则称为回归监督学习;若输出标签是一个离散的值,则称为分类监督学习。
监督学习涉及两个方面的工作:首先,根据提供的训练数据,选择一种合适的模型进行训练,直至模型的训练收敛。常见的监督学习模型包括:Logistic回归、决策树、SVM(Support Vector Machines,支持向量机)、KNN、朴素贝叶斯等。下图展示的是一个水果分类的例子,每一个样本数据的输入是由物体的特征构成的特征向量,如物体的颜色、大小、形状等,输出的是物体的类别,如苹果、葡萄、香蕉等。
监督学习模型训练,算法利用训练数据提供的特征信息,如颜色、大小、形状等,构建概率模型p(y|x)或非概率模型y=f(x)
其次,当模型训练完毕,就可以把新的输入数据代入模型,模型将根据新数据的特征信息,找出最符合这种特征的输出结果,其过程如下。
模型预测
无监督学习(Unsupervised learning):无监督学习的训练样本数据没有任何的标签和输出,其目的是对原始数据结构进行深入分析,找出数据间存在的规律与关系。典型的无监督学习任务包括:聚类、降维、特征提取等。
两种常见的无监督学习,(a)数据聚类,(b)数据降维
虽然监督学习的准确率更高,但在现实生活中,我们获取的大量数据一般是没有标签数据的,因此,我们不得不诉诸于无监督学习,但传统的无监督学习方法在特征提取上并不令人满意,而深度学习则被证明具有强大的无监督学习能力,特别是在计算机视觉领域,运用深度学习技术所达到的效果更是要远优于传统的机器学习。
强化学习(reinforcement learning):强化学习也称为增强学习,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
强化学习与前面的监督学习、无监督学习之间的区别在于,它并不需要出现正确的输入输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索未知的领域和遵从现有知识之间找到平衡,它的学习过程是一个从实际环境中不断学习积累,不断进化的过程。因此,强化学习更接近生物学习的本质,也是有望让机器获得通用智能的一项技术。
DeepMind利用强化学习技术在迷宫游戏中执行搜索任务(图片摘自网络)
本文选自《深入浅出深度学习:原理剖析与Python实践》,点此链接可在博文视点官网查看此书。
想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
机器学习:数据驱动的科学相关推荐
- 机器学习、数据科学、人工智能、深度学习和统计学之间的区别!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Vincent Granville,来源:机器之心 在这篇文章中, ...
- 一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别!
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者:Vincent Granville 来源:机器之心公众号 链接:http://www.d ...
- AI 开发者不容错过的 20 个机器学习和数据科学网站
作者 | Oleksii Kharkovyna 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 以下为译文: 如今,科技界最热门的话题莫过于最先进.最前沿.最令人兴奋的数据科学和机器学习 ...
- 一文读懂机器学习、数据科学、人工智能、深度学习和统计学之间的区别
在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习.深度学习.人工智能.统计学.物联网.运筹学和应用数学等相关领域的比较和重 ...
- 可解释的机器学习,用于科学的见解和发现(Explainable Machine Learning for Scientific Insights and Discoveries)
可解释的机器学习,用于科学的见解和发现(Explainable Machine Learning for Scientific Insights and Discoveries) 原文作者:Ribana ...
- 机器学习与物理科学(五)(Machine learning and the physical sciences)
Machine learning and the physical sciences 摘要 Ⅵ.化学和材料科学( CHEMISTRY AND MATERIALS) A.基于原子环境的能量和力( Ene ...
- 机器学习与物理科学(三)(Machine learning and the physical sciences)
Machine learning and the physical sciences 摘要 Ⅲ.粒子物理与宇宙学( PARTICLE PHYSICS AND COSMOLOGY) A.模拟的作用(Th ...
- 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...
本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.11节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区& ...
- 哪些电脑最适合做机器学习、数据科学和深度学习呢?这里有份调研报告
选自Medium 机器之心编译 作者:Towards AI Team 编辑:陈萍.杜伟 一份来自 Towards AI 的关于机器学习.数据科学和深度学习的最佳笔记本电脑.在预算范围内,入手最适合的笔 ...
- 七本书籍带你打下机器学习和数据科学的数学基础
大多数人学习数据科学的重心放在编程上面,然而,要真正精通数据科学的话是不能够忽视数据科学背后的数据基础.本篇文章,将分享给读者我喜欢的七本有关于数据科学基础的书,下面将逐一为大家介绍这七本数学基础书, ...
最新文章
- pycharm设置编写的脚本页面长行实现自动换行(windows版)
- Jvm(4),保持线程可见性的几种方法
- 「人工智能视觉」一直被消费者忽视的工业领域应用
- anaconda的scikit-learn报错It seems that scikit-learn has not been built
- 小程序加载本地图片路径问题
- Qt工作笔记-Qt连接Mysql数据库,检索及修改表数据
- mysql 深胡_数据存储之MySQL
- 上海往事之参加安永公司项目面试
- 流模型 操作 xml
- 详解健康体检信息管理系统技术开发
- windows 驱动开发 DDK与WDK WDM的区别
- Icode编程>>>Python编程>>>1级训练场>>>基础训练【1】
- WSO2流处理器相关学习(1)快速入门指南【转】
- Value of type java.lang.String cannot be conver...
- 2020我也当了面试官-java面试题之四
- 汽车智能化的商业化路径、产业演进及投资机会探讨——附下载链接
- 合成器插件:KORG Software M1 for Mac
- 电脑打印准考证图片显示不出来
- 关于结构化、半结构化、非结构化数据的理解
- 实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案
热门文章
- 四川音乐学录音艺术与计算机音乐,艺考中作曲专业和录音专业有什么不同呢?...
- 位图排序 大数据_干货分享:大话12种排序算法
- php里面执行python,在php中执行python
- c语言程序中的基本功能,c语言程序中的基本功能模块为什么?
- Verilog设计实例(7)基于Verilog的数字电子钟设计
- Ubuntu系统添加root用户
- Java基础-序列化与反序列化
- 【SQLServer】【恢复挂起的解决方案】附加文件时候的提示“无法重新生成日志,原因是数据库关闭时存在打开的事务/用户,该数据库没有检查点或者该数据库是只读的。 ”【数据库恢复】...
- 刷算法的时候有没有必要自写测试用例?
- PHP微信登錄(網頁授權)之後的獲取用戶的信息