统计学习导论_统计机器学习之扫盲导论篇
机器学习之扫盲导论篇
来都来了,不关注一下吗??
人工智能是当下最火的词,而机器学习就是它的灵魂。
现在超级多搞金融的人已经用到很深的机器学习模型了,更别提互联网企业的大佬们了,比如:
(这是一篇研报)
(这真的是某券商金工团队出的一篇研报)
更夸张的是,发现我校的“信息xxxx学院”在几年前偷偷改名为“人工智能学院”(还是我走夜路偶然发现的,抓住你了)
exmmmm 足以说明它的火爆程度
那么就别躲着着了,赶紧上车跟上这波潮流。让我们大声喊出口号: “机器学习,没有你想象的那么难。”
机器学习(Machine learning)是一门科学,准确的来说是一门关于算法的科学。
那么统计机器学习大致分为四类:监督学习、无监督学习、半监督学习和强化学习。下面一一来为大家扫个盲。
1
监督学习
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
通俗来说,就是给定数据,预测标签。每一个训练数据(training data)都是有特征和标签的。那么什么是特征和标签呢?
非常简单,我举一个例子。比如银行的贷款部门,每一个客户的基本情况都属于特征,包括他们的性别、年龄、工作单位类型、工资、目前在名下的房子价值、有无不良贷款记录等等。那么什么是标签?就是评估完这些特征之后,银行最终的决定:是否放贷给客户。
ID | 姓名 | 性别 | 年龄 | 工资 | 工作单位 | 有无不良记录 | 是否贷款 |
1 | 高高 | 男 | 30 | 15 | 国企 | 无 | 是 |
2 | 周周 | 女 | 23 | 13 | 个体 | 无 | 是 |
3 | 乐乐 | 男 | 27 | 15 | 个体 | 无 | 否 |
4 | 新新 | 男 | 35 | 30 | 个体 | 有 | 否 |
...........
好的,这是我们的训练数据,也就是training data,那么问题来了:如果再来一个人,他同样可以提供特征数据,那么能预测是否贷款吗?这就是监督学习。
ID | 姓名 | 性别 | 年龄 | 工资 | 工作单位 | 有无不良记录 | 是否贷款 |
9 | 方方 | 男 | 25 | 30 | 国企 | 有 | ? |
一句话概括监督学习:给定数据(特征),预测标签。
常见的监督学习算法:K近邻(KNN),决策树(DT),朴素贝叶斯(NB),逻辑回归(LR),支持向量机(SVM)等等
2
无监督学习
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。例如无监督学习应该能在不给任何额外提示的情况下,仅依据所有“猫”的图片的特征,将“猫”的图片从大量的各种各样的图片中将区分出来。
可以想象,恰当地提取特征是无监督最为关键的环节。在老虎的识别中,我们来尝试提取老虎的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等等。通过对特征相同的动物的聚类,可以将猫或者猫科动物聚成一类。但是此时,我们不知道这群毛茸茸的东西是什么,我们只知道,这团东西属于一类,兔子不在这个类(耳朵不符合),飞机也不在这个类(有翅膀)。特征有效性直接决定着算法有效性。如果我们拿体重来聚类,而忽略体态特征,恐怕就很难区分出老虎和豹子了。
再比如,孩子在一开始认识事物的时候,父母会给他一些苹果和橘子,但是并不告诉他哪儿个是苹果,哪儿个是橘子,而是让他自己根据两个事物的特征自己进行判断,会把苹果和橘子分到两个不同组中,下次再给孩子一个苹果,他会把苹果分到苹果组中,而不是分到橘子组中。
一句话概括:给定数据,寻找隐藏的结构。
常见的无监督学习算法:K-means聚类,主成分分析PCA等等
3
半监督学习
半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的手机不需要太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
使用的数据,一部分是标记过的,而大部分是没有标记的。和监督学习相比较,半监督学习的成本较低,但是又能达到较高的准确度。综合利用有类标的和没有类标的数据,来生成合适的分类函数。
4
强化学习
强化学习(reinforcement learning)是指智能系统在于环境的连续互动中学习最有行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
比如说训练一只小狗做动作,在它最对动作的情况下奖励骨头,再比如AI解游戏问题等等都属于强化学习,是可以通过一些方法知道你是离正确答案越来越近还是越来越远(奖惩函数)。可以把奖惩函数看作正确答案的一个延迟、稀疏的形式。可以得到一个延迟的反馈,并且只有提示你是离答案越来越近还是越来越远。
(注明:本文提到的定义均直接采用李航老师的《统计学习方法》)
是不是觉得机器学习也没有想象中那么神秘?我后期争取一周更一篇机器学习的推文,一起进步呦!
记得关注喵
留言板
统计学习导论_统计机器学习之扫盲导论篇相关推荐
- 统计数字问题_统计问题
统计数字问题 Statistics can be one of the most divisive and harmful misinformation tools, and I have seen ...
- 统计学习导论_统计学习导论 | 读书笔记11 | 多项式回归和阶梯函数
ISLR(7)- 非线性回归分析 多项式回归和阶梯函数 Note Summary: 0.从理想的线性到现实的非线性 1.多项式回归 2.Step Function 3.参考 0. Moving Bey ...
- 统计学习导论_统计学习导论 | 读书笔记15 | 广义可加模型
ISLR 7.7 广义可加模型 要点: 0.广义可加模型介绍 1.用于回归问题的GAM -- 多元线性回归的推广 2.用于分类问题的GAM -- 逻辑回归的推广 3.GAM的优点与不足 0. Gene ...
- c++ 用类统计不及格人数_统计小课堂13
Previous review: 1)回归章节小结: 这周开始计数资料统计! -------------------------------------- 当观察数据按照某种属性和类别分组后,计数得到 ...
- java 统计数字个数_统计数字问题(Java)
Description 一本书的页码从自然数1 开始顺序编码直到自然数n.书的页码按照通常的习惯编排,每个页码都不含多余的前导数字0.例如,第6 页用数字6 表示,而不是06 或006 等.数字计数问 ...
- python统计英文单词个数_统计英文单词的个数的python代码 及 字符串分割
字符串分割 str="a|and|hello|||ab" alist = str.split('|') print alist结果 str="a hello{这里换成5个 ...
- LISP统计圆弧数量_统计圆数量并列表 - AutoLISP/Visual LISP 编程技术 - CAD论坛 - 明经CAD社区 - 统计 - Powered by Discuz!...
想得到的效果: 1 框选图形,能统计所有圆的数量并列表. 2 圆的右下角以字母标记. 相同半径的圆分别以 A1,A2,A3,命名.以此类推. 不同半径的以B1,C1,,,,,表示. 3.要能过滤圆弧, ...
- 红水河统计降尺度_统计降尺度的方法的研究进展综述.doc
统计降尺度的方法的研究进展综述 统计降尺度的方法的研究进展综述 摘要:统计降尺度方法是将大气环流模式GCMs输出的低分辨率的气象资料转换为流域尺度的主要方法之一,现已发展成为气候学中较为完善的领域.简 ...
- mysql统计唯一个数_统计数组元素的个数和唯一性的函数
有些函数可以用来确定数组中的值总数及唯一值的个数.使用函数count()对元素个数进行统计,sizeof()函数时count()的别名,他们的功能是一样的. ①函数count() 函数count()的 ...
最新文章
- django mysql 时区_django 中的时区设置
- windows下Meteor+AngularJS开发的坑
- Spring Security3源码分析-http标签解析(转)
- python中自定义模块导入飘红_hadoop streaming 中跑python程序,自定义模块的导入
- MSP432P401R TI Drivers 库函数学习笔记(七)I2C驱动OLED屏幕
- Invoke and BeginInvoke BeginInvoke和EndInvoke方法 (转)3
- 用ghost备份和还原Linux系统
- 《计算机网络》第四章:介质访问控制(The Medium Access Control Sublayer)
- 有效管理云计算成本的多个措施
- LeetCode刷题——343. 整数拆分
- paip.支付宝即时到账接口改双功能接口.txt
- 逻辑思维题一:条件组合覆盖
- php生成白色背景图片
- 无缝滚动加加暂停效果
- 颜色空间RGB与HSV HSL 的转换
- 2019 icpc南昌邀请赛 G Winner
- 您能不能也宽容一点??
- 西安交通大学计算机博士名单,2017年西安交通大学博士生拟录取名单公示
- 怎么验证mysql安装成功_mysql如何验证是否安装成功
- 吐槽智能手机上那些不爽的事
热门文章
- .net core 2.0学习笔记(二):Hello World amp;amp; 进阶
- 从 TFS 迁移源代码到 git
- Essential MSBuild: .NET 工具生成引擎概述
- 支持断线重连、永久watcher、递归操作并且能跨平台(.NET Core)的ZooKeeper异步客户端
- 【ArcGIS微课1000例】0020:关于ArcCatalog,你知道多少?
- 多种语言《九九乘法表》荟萃:C、C++、C#、JavaScript、SQL、VB、VBA、Python
- ArcGIS,Envi软件中的卷帘工具使用及对比
- C语言九十七之实现有 1、2、3、4 个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?并且输出多少个
- C语言试题六十二之请编写函数fun除了字符串前导和尾部的*号之外,将串中其他*号全部删除。形参h已指向字符串第一个字母,形参p已指向字符串中最后一个字母。在编写程序时,不得使用c语言提供的字符串函数。
- C和指针之auto和内存栈和register关键字