宋文广 李程文 谭建平

摘   要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集。文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分类算法。算法首先通过一对多二元分解将多标签图数据分解成多个单标签图数据。然后对分解后的图数据,运用半监督SVM进行分类。通过实验证明,该方法在已标注图数据较少情况下具有较高的分类精度。

关键词:图数据;多标签;半监督;自训练

單标签分类(二分类)是传统分类方法的主要研究方向,它是基于一幅图只有一个标签的假设上。在现实场景中,所用到的图数据一般都具有多个标签集[1-2]。

半监督学习即利用大量无标签数据和少量有标签数据共同训练模型。但半监督学习很难与监督学习分类性能相比,但从目前算法优化发展来看,半监督学习很有可能达到传统分类方法的性能。

1    基于半监督的SVM分类算法

2    实验

2.1  数据集

用一组化合物抗癌活性性能数据集作为实验用多标签数据集。该组数据包含了化合物对于10种癌症的抗癌活性性能的记录,将10种癌症中记录不完全的数据移除,得到812个被分配了10个标签的图。

2.2  评估方法

多标签分类比传统单标签分类问题需要不同的实验结果评估标准。在这里采用Ranking Loss和Average Precision评估多标签[3-4]分类性能。实验结果评估标准如下:

(1)Ranking Loss:评估分类实际输出值的性能,它的值由错误预测的标签对的平均值计算得到的。

(2)平均准确率:评估排列顺序在特殊标签y之上的标签的平均值,把y设置为真实标签集。

2.3  实验设置

为了体现本文算法的有效性与实用性,采用以下对比方法进行实验。

(1)单标签+SVM:这个方法采用单标签图数据训练普通的SVM模型。

(2)多标签+SVM:这个方法采用多标签图数据训练自适应SVM模型。

2.4  实验结果

实验中,将每一个图数据集平均分割成10个小数据集。在这些数据集中只采用其中的一个作为测试集,其他的9个作为训练集,每一组实验重复进行10次。实验结果如图1—2所示。图1表示1-AvgPrec的实验结果,图2表示Ranking Loss的实验结果。

如图1—2所示,纵坐标则分别表示1-AvgPrec值和Ranking Loss值,横坐标表示实验次数。由图1—2可知,无论是Ranking Loss还是1-AvgPrec,文章提出的方法(MG+STSVM)输出效果比(G+SVM)的输出效果略好。

3    结语

本文采用半监督SVM方法可以利用大量未标注数据来帮助分类模型的训练,从而挖掘出未标注数据中可能含有的对分类起重要作用的信息。进而,在已标注多标签图数据比较少的情况下,得到不错的分类器。在以后的研究工作中,将会继续完善研究方法,并寻找提高目标域子图数量的算法。

[参考文献]

[1]BRAVO MARQUEZ F,FRANK E,MOHAMMAD S M,et al.Determining word-emotion associations from tweets by multi-label classification[C].Nebraska:IEEE/WIC/ACM International Conference on Web Intelligence,2017.

[2]AGGARWAL C C,ZHAI C X.A survey of text classification algorithms[J].Springer US,2012(3):163-222.

[3]SEBASTINAI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002(1):1-47.

[4]YEH C K,WU W C,KO W J,et al.Learning deep latent spaces for multi-label classification[J]. 2017(7):12-15.

svm 图片加标签_基于半监督的SVM多标签图数据分类算法研究相关推荐

  1. 无源的nfc加传感_基于ON Semiconductor SPS无源温度标签,应用于冷链运输的 UHF 标签读取器方案...

    冷链,即冷冻冷藏供应链的简称,泛指冷藏冷冻类食品从原材料供应物流.食品工厂内生产物流.贮藏运输物流至贩卖销售物流等,各个环节中始终处于规定的低温环境下,以保证食品质量,减少食品损耗的一项系统工程 .随 ...

  2. 半监督学习模型: 半监督的SVM

    1. SVM模型 SVM 模型优化的损失函数: 如果结构损失中的2范数换成1范数: 2. 半监督的SVM 考虑到无标签样本,如果无标签样本在SVM模型中预测成负类或者正类,只要它与决策面的距离少于单位 ...

  3. 半监督异常检测(Anomaly Detection)的研究线

    半监督异常检测(Anomaly Detection)的研究线 在假设数据集中大多数实例都是正常的前提下,半监督异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成 ...

  4. 基于轻量级神经网络MobileNet V2的水果识别种类算法研究

    基于轻量级神经网络MobileNet V2的水果识别种类算法研究 时代背景 农用机器人,是由现代农业中发展出来的一个能够部分取代人类劳动力的高智能精密机械装置.它是现代农业生产中不能缺少的环节,也是未 ...

  5. 阅读笔记3:基于深度学习的运动想象脑电信号分类算法研究

    1.论文信息 题目:基于深度学习的运动想象脑电信号分类算法研究 作者佟歌 单位:哈尔滨工程大学控制科学与工程 发表时间:201803 2.笔记 2.1 脑电信号采集及预处理 2.1.1脑电信号分析方法 ...

  6. 基于癌症基因组学数据的miRNA 功能模块识别算法研究

    题目: 基于癌症基因组学数据的miRNA 功能模块识别算法研究 摘要: 大量研究表明miRNA 的异常表达与癌症的发生.发展有关,且miRNA 通常以组合的 方式发挥其协同调控作用.因此,研究miRN ...

  7. matlab人脸识别开题报告,基于人脸识别的出勤点名系统中特征提取算法研究开题报告...

    基于人脸识别的出勤点名系统中特征提取算法研究 一.本课题研究的目的,意义 人脸识别是一项既有科学研究价值,又有广泛应用前景的研究课题.国际上大量研究人员几十年的研究取得了丰硕的研究成果,自动人脸识别技 ...

  8. 目标检测YOLO实战应用案例100讲-基于深度学习的无人机航拍图像目标检测算法研究与应用

    目录 基于深度学习的无人机航拍图像目标检测算法研究与应用 基于深度学习的目标检测相关知识理论

  9. 监督分类空白处也被分类了_用于半监督短文本分类的异构图注意网络

    文章:Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification. Linmei Hu,T ...

最新文章

  1. 黑客用上机器学习你慌不慌?这 7 种窃取数据的新手段快来认识一下!
  2. 2021年机器学习的下一步是什么?
  3. Setting up Pytorch with Python 3 on Ubuntu(Source code compilation)
  4. BUU——WMCTF2020 - easy_re
  5. qpython numpy_Python-Numpy全面精简教程
  6. Linux运维 第三阶段 (十八) varnish
  7. oracle 比较日期相等
  8. 学习Scala:孤立对象的实现原理
  9. php 降低视频分辨率,将低分辨率视频变成1920*1080高分辨视频,可自由调节分辨率宽高...
  10. 【工控老马】基于PLC的花样喷泉设计原理详解
  11. EndNote导出任意期刊格式的参考文献
  12. 软件设计师中级考试,软考
  13. android模拟器如何增加RAM
  14. Nginx从入门到精通(笔记)
  15. 实战项目 — 爬取 校花网图片
  16. 《反脆弱边缘:反脆弱实践》访谈
  17. C#多摄像头切换调用,并扫描二维码
  18. 大白菜U盘装系统工具,被爆出病毒!
  19. Windows10怎么设置双屏?双屏显示设置有哪些?
  20. Pycharm提示No Python interpreter selected怎么解决

热门文章

  1. 2020数学建模国赛C题思路
  2. Linux修改开机启动logo
  3. 使用DBCA创建数据库
  4. libevent源码深度剖析一
  5. 双网卡绑定linux7.2,CentOS 7.2 bond实现网卡聚合链路(双网卡绑定)脚本及验证(适合云平台)...
  6. grpc入门到精通_Spring Cloud 从入门到精通(一)Nacos 服务中心初探
  7. 【转】肺小结节就诊指南:4种CT的区别及如何选择?
  8. 如何重新安装 Linux 的操作管理套件 (OMS) 代理
  9. 第八节:数据库层次的锁机制详解和事务隔离级别
  10. RDLC报表下载的权限问题