浅谈主动学习(Active Learning)
1背景概述
在机器学习领域有很多学习模式,比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习,在监督学习里面,比方说要做个人和鱼的图像分类模型,假设有200张图片,那就需要把这200张样本都打好标记再训练。
监督学习存在很多问题,比如最直接的一点,当样本打标成本很高的时候,比如要标记一个人脸,可能需要在图片上打上百个点,用监督学习很消耗资源。
主动学习(Active Learning)很好地解决了这个问题,主动学习的本质是让训练样本的利用率最大化,今天就来介绍下主动学习的一些内容。
2Active Learning基本原理
ActiveLearning的基本逻辑很好理解,就是构建一个打标和训练流程的闭环,有点类似于boosting算法。
在ActiveLearning中,不需要训练样本全部打标,可以先打标部分样本,然后跑一次分类模型,接着对未打标样本做一次预测。可以根据预测结果将未打标样本分成两类,一类是不确定性大,也就是信息熵大的样本,另一类是不确定性小但是信息熵也小的样本。然后针对信息熵大的样本再次训练。
这里面有个问题,什么叫不确定性大的样本呢?还是举文章开篇的例子,假设做人和鱼的分类模型,什么样的样本是不确定性高的呢?当然是哪种很难分辨人还是鱼的样本,比如美人鱼,哈哈。
总结下,ActiveLearning的本质就是先标记部分样本,然后训练一个简单分类模型,通过这个模型找到高信息熵样本并打标,然后再重新用新训练集finetune模型。
3业务价值
ActiveLearning显而易见的一个业务价值就是比较节省数据打标资源。很多论文已经讲了ActiveLearning在一些场景下的优势。
我个人感觉,ActiveLearning会在一些数据样本打标代价很高的场景落地,比如金融风控领域的负样本模型训练、图像语音的模型训练。
另外,一些云端机器学习平台产品如果可以集成Active Learning的能力对客户是很有吸引力的。虽然我还没机会做这种产品的设计,但是可以预想到未来云上的机器学习平台,能否对高信息熵样本做主动学习,将是一个重要的用户抓手。
浅谈主动学习(Active Learning)相关推荐
- 主动学习(Active Learning,AL)的理解以及代码流程讲解
为什么要使用主动学习(Active Learning,AL) 针对有监督的学习任务,存在标记成本较为昂贵且标记难以大量获取的问题. 在此问题背景下,主动学习(Active Learning, AL)尝 ...
- 转发:很好理解流形学习的文章-浅谈流形学习(Manifold Learning)
转 很好理解流形学习的文章-浅谈流形学习(Manifold Learning) 来源 Machine Learning 虽然名字里带了 Learning 一个词,让人乍一看觉得和 Intelligen ...
- 机器学习中的主动学习(Active Learning)
最近在做主动学习相关的东西,随着深入了解和学习对于某些东西有一些模糊,先将所见所感整理如下,如有不正确之处希望大佬能够指正: 1.主动学习 1.1关键问题 对于监督学习模型,足够多的已标注样例是获得高 ...
- 主动学习active learning方法汇总
更新2021/12/6 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧. 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法, ...
- 主动学习(Active Learning)领域部分经典论文汇总
只简单找了一小部分 CVPR [link] Active Image Segmentation Propagation CVPR 16 segmentation [link] The Power of ...
- 浅谈深度学习(Deep Learning)的基本思想和方法
http://blog.csdn.net/xianlingmao/article/details/8478562 深度学习(Deep Learning),又叫Unsupervised Feature ...
- 浅谈流形学习(Manifold Learning)
Machine Learning 虽然名字里带了 Learning 一个词,让人乍一看觉得和 Intelligence 相比不过是换了个说法而已,然而事实上这里的 Learning 的意义要朴素得多. ...
- 很好理解流形学习的文章-浅谈流形学习(Manifold Learning)
来源 Machine Learning 虽然名字里带了 Learning 一个词,让人乍一看觉得和 Intelligence 相比不过是换了个说法而已,然而事实上这里的 Learning 的意义要朴素 ...
- 主动学习 Active Learning - a survey
知识点解释 1. 分析机器学习算法的可学习性时,通常有 realizable-assumption 和 non-realizable-assumption.前者表示假设空间中存在 ERM 为零的最优模 ...
最新文章
- 单片机怎么做定时器矩阵,彻底解决各种定时问题?
- 国科大UCAS胡包钢教授《信息论与机器学习》课程第二讲:信息论基础一
- Linux 问题分析,性能优化
- OkHttp3源码解析(三)——连接池复用
- 家长对孩子的期望 from father
- vue生命周期详解、钩子函数的调用(简单易懂)
- WampServer64的2.5版本配置多站点
- windows清除记住的密码
- windows查看GPU信息(nvidia-smi)
- delphi 连接DBF
- MPU6050姿态解算——Mahony互补滤波
- python3爬虫-Python3网络爬虫入门实战解析
- 玩具积木行业调研报告 - 市场现状分析与发展前景预测
- wireshark抓取未加密聊天数据
- 关于B树的思考:m阶B树的非根非叶节点为什么要至少为ceil(m/2)个孩子? c/c++描述
- 【转】Verilog算术右移
- 【案例】路由器怎么自动获取IPv6地址?
- NeuroAI作者,冷泉港主任独家专访:忽视神经科学给我们的启示是愚蠢的
- 杭州保俶塔实验机器人_资讯 | 智慧与挑战!2017年西湖区中小学生科技节智能机器人比赛成绩出炉啦...
- 关于 vue 数据请求 本地跨域 和 线上请求的 ip地址 切换 问题
热门文章
- csrf攻击防御 php,Yii2.0防御csrf攻击方法
- leetcode 105. 从前序与中序遍历序列构造二叉树 c语言递归解法
- 递归与递推 普通排队问题及带约束条件的排队问题 c代码
- ip6tables 无法基于端口过滤IPv6 分片报文问题解决
- php后台无法接受文件,ios afnetworking2.x上传图片 服务端php无法接受文件问题
- java tic tac toe_请问我这个tic tac toe的游戏代码的问题在哪里
- 解析html语言的软件,小程序解析html标签 div-Go语言中文社区
- 定点数的编码表示方法
- oracle sql删除job,修改Oracle的Job Scheduler 日志级别及删除运行日志
- java db 10.4.13_Spring Data MongoDB 1.10.13和Mongo 3.4