TSVM  常见的解决未标注样本的方法有EM (Expectation Maximization) 算法 ,协同训练法,Transductive SVM 方法及最大熵判别法等.

原文链接:http://blog.sina.com.cn/s/blog_4c98b9600100094l.html

        下面首先介绍一下TSVM,并以入侵检测为例介绍。在传统的ISVM中,训练SVM学习机需要大量经过标记的样本,而正确标记的样本是很难大量获取的。如果能把未标记样本的特征加入到入侵检测算法的设计中去,就可以弥补归纳式SVM带来的缺陷,获得更好的检测效果。直推式SVM 正是基于这种思想的SVM算法。

     

TSVM是一种不依赖于推广性思想的经验推理。由于其是从特殊到特殊的推理,难以直接进行客观验证。因此,直到现在才开始得到人们研究的重视,但它已经在一些领域中(例如生物基因选择,数字识别)取得了初步结果,甚至表现出了比传统ISVM更好的性能。直推式SVM 的决策分类函数是建立在训练集Strain和测试集Stest 的基础上。
        由于径向基函数(Radial Basis Function,RBF)在高维空间分类问题中的优越表现,我们选取RBF作为SVM分类器的核函数。在TSVM学习期间,测试样本就对其施加了影响。因此,TSVM学习的结果中就包含了测试样本的数据特征。经过学习后,TSVM就会产生一个分类决策函数,即最优分类超平面。测试样本经过TSVM分类器处理后,再由入侵检测决策系统根据分类结果来判断是否有攻击行为的发生。为了尽可能将正常数据和攻击数据正确地区分,以提高入侵检测的检测率,TSVM试图寻找最优分类超平面。而TSVM的有效学习是非常重要的,其具体的学习过程如下:
        (1)TSVM根据指定的惩罚因子C和C*,利用训练数据中包含的正负标签的网络数据进行归纳式学习,得到一个比较原始的样本分类器。随后,TSVM假定训练集中无标记网络数据样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。
       (2)TSVM用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签网络数据记录的判别结果,对无标签数据作出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
       (3)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(2)的值,使得问题(2)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
      (4)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(3),直到C*temp≥C 时,TSVM 的学习结束。

当TSVM终止学习后,就可以用学习得到的分类器对测试样本进行分类判别。入侵检测决策系统根据TSVM分类器分类的结果作出是否有入侵行为发生的判断。TSVM在学习的过程中,结合了大量的未标记网络数据的信息,并反复调整未标记数据对TSVM学习机的影响,以追求对无标签样本的最小分类误差。因此,基于TSVM的入侵检测系统比基于ISVM的检测系统需要更长的学习时间,但是由于结合了测试样本的影响,在对测试样本分类的准确度上也会得到一定程度的提高。

如何解决大量样本标注问题相关推荐

  1. 遥感解译实验样本标注规范

    遥感解译实验样本标注规范 为了进行遥感解译实验,现进行全地物类别产品实验,需要提供大量的样本数据,故对GF1-WFV(16米分辨率)影像进行样本的标注,用于深度学习技术的训练学习阶段. 一 实验所用软 ...

  2. dicom标注工具_医学影像AI样本标注专用软件

    详情 目前,医学影像的人工智能研究正高速发展,但还没有专用于医学影像样本标注的软件.基于此,本公司开发了该软件,该软件具有以下功能特色: 1. 可同时批量打开不同序列或不同参数的两组DICOM图像,进 ...

  3. python组合数据分类_Python解决数据样本类别分布不均衡问题

    所谓不平衡指的是:不同类别的样本数量差异非常大. 数据规模上可以分为大数据分布不均衡和小数据分布不均衡.大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种 ...

  4. 如何判断样本标注的靠谱程度?置信度学习(CL)简述

    一只小狐狸带你解锁NLP/DL/ML秘籍 来源:AI科技评论 前言 使用ImageNet.CIFAR.MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的? ...

  5. 利用多源互联网地图(天地图、高德、必应等)和行政区划界线辅助遥感影像样本标注判读

    联合多源互联网地图(高德.必应.天地图等)的辅助判读标注 ​ 遥感影像相对其他普通图片有三大特点:1)尺寸大:2)有地理坐标:3)通道数多.位深大.由于尺寸大,所以遥感图片比普通图片标注多一个裁切步骤 ...

  6. 六、SAR(合成孔径雷达)数据样本标注

    有几个同学问,能否做SAR的标注,其实在GeoLabel里SAR的标注和光学影像的标注是没有差别的,为表郑重,专门写一篇推送文章,没什么新的内容,主要做一个不太专业不太严谨的科普. SAR数据本质上还 ...

  7. 堪比Focal Loss!解决目标检测中样本不平衡的无采样方法

    训练目标检测模型的一个难点是样本不均衡,特别是正负样本比例严重失衡.目前解决这类问题主要是两种方案(见综述Imbalance Problems in Object Detection: A Revie ...

  8. 寻找解决样本不均衡方法之Focal Loss与GHM

    寻找解决样本不均衡方法之Focal Loss与GHM 主要参考资料:5分钟理解Focal Loss与GHM--解决样本不平衡利器 - 知乎 (zhihu.com) Focal Loss的引入主要是为了 ...

  9. python实现labelme样本自动标注

    python实现labelme样本自动标注 前言 说明 正文 一. json文件简介及相关API: 二. 特征区域检测及相应API 三. 计算偏移量以及标注框的新的点集 四. json文件数据其他修改 ...

最新文章

  1. Sublime Text 常用插件和快捷键
  2. python easygui_EasyGUI是python的一个超级简单的GUI工具介绍(一)
  3. 零基础python必背代码-编程零基础应当如何开始学习 Python?
  4. redis常用API
  5. 传统的线性降维方法效果不佳。_高压断路器机械故障诊断与定位的新思路:KPCA-SoftMax诊断方法...
  6. Numpy学习-数组的索引
  7. iOS开发之Runtime关联属性
  8. 标准时间校对_光源色灯箱标准原理
  9. 串的模式匹配(KMP算法)
  10. CPU的向量化、多核技术、多路技术、众核技术
  11. vue 指令 v-model
  12. Quartz入门指南
  13. struts2的action中获得request response session 对象
  14. JavaScript语法学习
  15. 最通俗PLC教程—源自Koyo光洋PLC自学总结(1)
  16. 微信公众号网页开发测试环境搭建
  17. 项目管理练习1577628224
  18. 下载python开发环境
  19. Android实现序列化方式
  20. 【GDOI2014模拟】雨天的尾巴

热门文章

  1. COBBLER无人值守安装-----已用真实服务器测试
  2. ibus无法出现选择框如何解决
  3. Linux 下如何处理包含空格和特殊字符的文件名
  4. Android Material Design之Toolbar与Palette
  5. Oracle 9i安装后,配置和启动企业管理器的详细过程
  6. 排序算法之——冒泡排序优化
  7. tensorRT 使用过程中的Bug记录
  8. C++关键字:重学记录
  9. django model 数据类型
  10. 喷水装置(一)--nyoj题目6