如何解决大量样本标注问题
TSVM 常见的解决未标注样本的方法有EM (Expectation Maximization) 算法 ,协同训练法,Transductive SVM 方法及最大熵判别法等.
原文链接:http://blog.sina.com.cn/s/blog_4c98b9600100094l.html
TSVM是一种不依赖于推广性思想的经验推理。由于其是从特殊到特殊的推理,难以直接进行客观验证。因此,直到现在才开始得到人们研究的重视,但它已经在一些领域中(例如生物基因选择,数字识别)取得了初步结果,甚至表现出了比传统ISVM更好的性能。直推式SVM 的决策分类函数是建立在训练集Strain和测试集Stest 的基础上。
由于径向基函数(Radial Basis Function,RBF)在高维空间分类问题中的优越表现,我们选取RBF作为SVM分类器的核函数。在TSVM学习期间,测试样本就对其施加了影响。因此,TSVM学习的结果中就包含了测试样本的数据特征。经过学习后,TSVM就会产生一个分类决策函数,即最优分类超平面。测试样本经过TSVM分类器处理后,再由入侵检测决策系统根据分类结果来判断是否有攻击行为的发生。为了尽可能将正常数据和攻击数据正确地区分,以提高入侵检测的检测率,TSVM试图寻找最优分类超平面。而TSVM的有效学习是非常重要的,其具体的学习过程如下:
(1)TSVM根据指定的惩罚因子C和C*,利用训练数据中包含的正负标签的网络数据进行归纳式学习,得到一个比较原始的样本分类器。随后,TSVM假定训练集中无标记网络数据样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。
(2)TSVM用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签网络数据记录的判别结果,对无标签数据作出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
(3)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(2)的值,使得问题(2)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
(4)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(3),直到C*temp≥C 时,TSVM 的学习结束。
当TSVM终止学习后,就可以用学习得到的分类器对测试样本进行分类判别。入侵检测决策系统根据TSVM分类器分类的结果作出是否有入侵行为发生的判断。TSVM在学习的过程中,结合了大量的未标记网络数据的信息,并反复调整未标记数据对TSVM学习机的影响,以追求对无标签样本的最小分类误差。因此,基于TSVM的入侵检测系统比基于ISVM的检测系统需要更长的学习时间,但是由于结合了测试样本的影响,在对测试样本分类的准确度上也会得到一定程度的提高。
如何解决大量样本标注问题相关推荐
- 遥感解译实验样本标注规范
遥感解译实验样本标注规范 为了进行遥感解译实验,现进行全地物类别产品实验,需要提供大量的样本数据,故对GF1-WFV(16米分辨率)影像进行样本的标注,用于深度学习技术的训练学习阶段. 一 实验所用软 ...
- dicom标注工具_医学影像AI样本标注专用软件
详情 目前,医学影像的人工智能研究正高速发展,但还没有专用于医学影像样本标注的软件.基于此,本公司开发了该软件,该软件具有以下功能特色: 1. 可同时批量打开不同序列或不同参数的两组DICOM图像,进 ...
- python组合数据分类_Python解决数据样本类别分布不均衡问题
所谓不平衡指的是:不同类别的样本数量差异非常大. 数据规模上可以分为大数据分布不均衡和小数据分布不均衡.大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种 ...
- 如何判断样本标注的靠谱程度?置信度学习(CL)简述
一只小狐狸带你解锁NLP/DL/ML秘籍 来源:AI科技评论 前言 使用ImageNet.CIFAR.MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的? ...
- 利用多源互联网地图(天地图、高德、必应等)和行政区划界线辅助遥感影像样本标注判读
联合多源互联网地图(高德.必应.天地图等)的辅助判读标注 遥感影像相对其他普通图片有三大特点:1)尺寸大:2)有地理坐标:3)通道数多.位深大.由于尺寸大,所以遥感图片比普通图片标注多一个裁切步骤 ...
- 六、SAR(合成孔径雷达)数据样本标注
有几个同学问,能否做SAR的标注,其实在GeoLabel里SAR的标注和光学影像的标注是没有差别的,为表郑重,专门写一篇推送文章,没什么新的内容,主要做一个不太专业不太严谨的科普. SAR数据本质上还 ...
- 堪比Focal Loss!解决目标检测中样本不平衡的无采样方法
训练目标检测模型的一个难点是样本不均衡,特别是正负样本比例严重失衡.目前解决这类问题主要是两种方案(见综述Imbalance Problems in Object Detection: A Revie ...
- 寻找解决样本不均衡方法之Focal Loss与GHM
寻找解决样本不均衡方法之Focal Loss与GHM 主要参考资料:5分钟理解Focal Loss与GHM--解决样本不平衡利器 - 知乎 (zhihu.com) Focal Loss的引入主要是为了 ...
- python实现labelme样本自动标注
python实现labelme样本自动标注 前言 说明 正文 一. json文件简介及相关API: 二. 特征区域检测及相应API 三. 计算偏移量以及标注框的新的点集 四. json文件数据其他修改 ...
最新文章
- Sublime Text 常用插件和快捷键
- python easygui_EasyGUI是python的一个超级简单的GUI工具介绍(一)
- 零基础python必背代码-编程零基础应当如何开始学习 Python?
- redis常用API
- 传统的线性降维方法效果不佳。_高压断路器机械故障诊断与定位的新思路:KPCA-SoftMax诊断方法...
- Numpy学习-数组的索引
- iOS开发之Runtime关联属性
- 标准时间校对_光源色灯箱标准原理
- 串的模式匹配(KMP算法)
- CPU的向量化、多核技术、多路技术、众核技术
- vue 指令 v-model
- Quartz入门指南
- struts2的action中获得request response session 对象
- JavaScript语法学习
- 最通俗PLC教程—源自Koyo光洋PLC自学总结(1)
- 微信公众号网页开发测试环境搭建
- 项目管理练习1577628224
- 下载python开发环境
- Android实现序列化方式
- 【GDOI2014模拟】雨天的尾巴