主动学习 Active Learning - a survey
知识点解释
1. 分析机器学习算法的可学习性时,通常有 realizable-assumption 和 non-realizable-assumption。前者表示假设空间中存在 ERM 为零的最优模型,后者表示假设空间中不存在。显然后者更符合真实情况。
2. PAC 理论用严格的形式化语言描述了上述两种情况的 sample complexity,详见 https://www.cs.bgu.ac.il/~inabd171/wiki.files/lecture10_handouts.pdf ,当然这里的采样指的是随机采样。在上述的抽样复杂度公式中,均假设的有限假设空间,所以用的项 |H|,对于更 general 的无限假设空间,应用其他项代替,即假设空间的 VC 维,准确来说,应该用 VC(H) 代替 log(|H|)。
3. VC 维,针对假设空间而言,或者说和这一类模型有关,而和具体使用的学习算法、样本分布均无关。例如,二维线性分类器的 VC 维为3,神经网络的 VC 维通常为 NlogN 或者 N^2,N 为网络参数的数量。从 2 中的 sample complexity 公式就知道,模型越复杂,VC 维越大,需要的样本越多。
4. 公式 m>=M(a,b)表明,只要训练样本数高于 M,任意 ERM 算法可以实现这个性能。这个公式与抽样复杂度的上界公式互补。公式 m<=M(a,b)表明,存在ERM算法,可以以样本数量 M 实现这个性能。所以,前面的下界也是抽样复杂度的上界。
6. AC 中部分文献理论研究了 realizable-case 和 non-realizable-case 情况下,AC 采样策略的 sample complexity。
7. version space V 是 hypothesis space H 的一个与训练数据 consistent 的子集,即对所有训练数据均能完美预测(拟合)的假设所构成的集合,这些假设均能完美解释目前观测到的数据。
8. expected generalization error = bias + variance + noise。 noise 是标注与真实标签之间的误差,只关乎数据的表征和问题的难度,与训练模型和训练数据无关。bias 反映选用的 model class 的拟合能力与真实目标model 之间差异的造成的误差,当限定了 model class,不同参数的 model 的 bias 是一致的。只有 variance 和训练集的变化扰动有关。
主动学习 Active Learning - a survey相关推荐
- 主动学习(Active Learning,AL)的理解以及代码流程讲解
为什么要使用主动学习(Active Learning,AL) 针对有监督的学习任务,存在标记成本较为昂贵且标记难以大量获取的问题. 在此问题背景下,主动学习(Active Learning, AL)尝 ...
- 机器学习中的主动学习(Active Learning)
最近在做主动学习相关的东西,随着深入了解和学习对于某些东西有一些模糊,先将所见所感整理如下,如有不正确之处希望大佬能够指正: 1.主动学习 1.1关键问题 对于监督学习模型,足够多的已标注样例是获得高 ...
- 主动学习active learning方法汇总
更新2021/12/6 到目前为止看了不少主动学习的文献,简单做一下一些目前为止了解到的主动学习方法的整理吧. 起初是精读的文献中整理的,后来发现在精读文献的方法比较里也有一些比较经典的主动学习方法, ...
- 主动学习(Active Learning)领域部分经典论文汇总
只简单找了一小部分 CVPR [link] Active Image Segmentation Propagation CVPR 16 segmentation [link] The Power of ...
- 主动学习(Active Learning)简介综述汇总以及主流技术方案
0.引言 在机器学习(Machine learning)领域,监督学习(Supervised learning).非监督学习(Unsupervised learning)以及半监督学习(Semi-su ...
- 主动学习(Active Learning)系列介绍(三)搜索假设空间(Searching Through the Hypothesis Space)
本文介绍主动学习Active Learning中的第二种query selection framework -- 搜索假设空间Searching Through the Hypothesis Spac ...
- 主动学习(Active Learning,AL)综述
目录 1. 基本概念 2. 基于不确定性的主动学习方法 3.基于最近邻和支持向量的分类器的方法 3.1 NNClassifier 3.2 RBF network + Gradient Penalty ...
- 每日一学-- 主动学习(active learning)
1. 在机器学习中,有监督学习.半监督学习.无监督学习. 在使用监督学习时,模型在标注的数据中学习信息,而存在的问题就是有大量的数据需要标注,非常费时费力.so主动学习为我们提供了方法,通过一定的算法 ...
- 基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习
0.法研杯 LAIC2022 司法人工智能挑战赛犯罪事实实体识别 0.1比赛简介 任务介绍 本赛道由中国司法大数据研究院承办. 犯罪事实实体识别是司法NLP应用中的一项核心基础任务,能为多种下游场景所 ...
最新文章
- 荒岛余生最后一个包裹_豆瓣评分8.5,一个人撑起整部电影,最后的彩蛋让人无语...
- pandas使用shift方法进行特征差分
- 在Eclipse中查看Android SDK源码
- 显示部分x_Linux 黑话解释:什么是显示服务器,用来做什么? | Linux 中国
- com.microsoft.sqlserver.jdbc.SQLServerException: 索引 1 超出范围
- throw()使用小结
- JBUILDER 2006怎么配置 STRUTS?[
- centos 安装MySQL报错You could try using --skip-broken to work around the problem You could try running:
- Notes of fwt
- DHCP 不同情况的操作
- Java SAO操作-使用lambda代替字符串
- 市场经济中,大家都象防贼一样保留证据,以用于欠薪仲裁
- Base64编码原理分析
- 2020-02-08
- 全球AI技术开放日系列5(上海站):走进爱奇艺
- Numpy中矩阵向量乘法np.dot()及np.multiply()以及*区别
- SikuliX教程-下载与安装
- 巧记作宾语补足语的省略to 的动词不定式
- 留学生在海外——Nina的幸福澳洲生活
- 普通路由器改4g路由器_合租拉宽带太坑?还是用4G路由器更实惠