本发明属计算机视觉、图形处理

技术领域:

,具体涉及一种基于自适应图的半监督学习方法。

背景技术:

:随着计算机网络技术的快速发展和人们对数据访问的多样化,人们可以获得的信息呈指数级别增长,如何利用这些海量数据来提高人们获取知识的能力,是当前科学家面临的共同挑战。在监督学习中,通过学习大量标记数据,建立模型来预测未标记数据,当标记的数据数量较少时,训练模型具有较弱的泛化能力并且易于过拟合。在许多实际应用中,未标记的数据非常容易获得且数量丰富,而标记数据由于标记过程需要消耗大量人力物力,其数量较少,如何通过少量的已标记样本和大量的未标记样本训练出一个较好的模型成为机器学习领域的一个重要研究方向。半监督学习(semi-supervisedlearning,SSL)就是为了解决上述问题而产生的。为了有效地利用未标记数据,SSL有两个常用的假设:簇假设和流形假设。在这些假设的基础上,人们提出了许多SSL方法。基于图的半监督学习方法是基于流形假设的方法的一种,由于其性能优越、易于实现、具有良好的泛化能力,已成为最受欢迎的半监督学习方法之一。基于图的半监督学习方法通常先构造一个图,图中节点由所有样本构成,图中边的权重是样本之间的相似度,利用构造的图,将已标记样本的标签信息传播到未标记样本,从而预测未标记样本的标签(即对未标记样本分类)。因此,基于图的半监督学习方法的性能很大程度上取决于构造图的质量。Roweis等人在文献“RoweisST,SaulLK.NonlinearDimensionalityReductionbyLocallyLinearEmbedding[J].Science,2000,290(5500):2323.”中提出LLE算法,其基本思想则是在数据集中任意一个数据点和它的邻域点之间构造局部线性坐标,并建立最终的优化目标函数,从而保持局部的几何结构不变。Karasuyama等人在文献“KarasuyamaM,MamitsukaH.Adaptiveedgeweightingforgraph-basedlearningalgorithms[J].MachineLearning,2016,106(2):1-29.”中提出自适应边缘加权策略,通过局部线性重建误差最小化来优化边缘权重,获得更高质量的图,进而增强算法性能。上述方法的局限性在于:由于绝大部分算法默认已标记的标签是正确的,未标记数据是完全根据已标记数据进行分类,但是在实际标注中,难免会有些标记错误的样本,同时,由于已标记数据的数量远远少于未标记数据,还会存在没有标记出的新的类别;按照错误的标签对未标记数据分类会产生重大错误。其次,由初始构造图的质量对算法性能有很大的影响,初始构造图质量很差时算法性能也很差。通常算法都是在进行半监督学习之前构造与数据点权重矩阵相关联的图,在后期没有办法对图进行改进。技术实现要素:为了克服现有技术的不足,本发明提供一种基于自适应图的半监督学习方法。一种基于自适应图的半监督学习方法,其特征在于步骤如下:步骤1:利用聂等人在2016年的工作“NieF,WangX,JordanMI,etal.TheConstrainedLaplacianRankalgorithmforgraph-basedclustering[C]//ThirtiethAAAIConferenceonArtificialIntelligence.AAAIPress,2016:1969-1976”中提出的构图方法构造得到样本集合X={x1,x2,…,xn}初始图的权重矩阵W;所述的样本集合的前l个样本为已标记的样本,其余样本为未标记样本,样本类别集合为C={1,2,…,c+1},其中,已标记样本共有c个类别;设样本的标签矩阵Y∈Rn×(c+1),对于已标记的样本xi,若它的类别为j,则令样本标签矩阵Y中第i行j列元素yij=1,i=1,2,…,l,j=1,2,…,c;对于未标记样本xi,将其初始标签设置为c+1,即令标签矩阵Y中第c+1列元素yi,c+1=1,此时,i=l+1,l+2,…,n;令标签矩阵Y中其余元素为0,即得到样本标签矩阵Y;步骤2:对于所有已标记的样本,设其正则化参数为μl,对于所有未标记的样本,设其正则化参数为μu,令对角矩阵U的第i个对角线元素μii为第i个样本的正则化参数,即i∈[1,l]时,μii=μl,i∈[l+1,n]时,μii=μu,得到正则化参数矩阵U∈Rn×n,i=1,2,…,n;其中,正则化参数μl的设置为:如果已标记样本的标签完全正确,则设置μl满足否则,设置μl满足正则化参数μu的设置为:对未标记样本按已标记样本类别分类,则设置μu满足否则,设置μu满足步骤3:分别以步骤1得到的初始图权重矩阵W、标签矩阵Y和步骤2得到的正则化参数矩阵U为输入构建目标函数,并最小化目标函数得到软标签矩阵Z,即:其中,S表示更新后的图的权重矩阵,D是S的度矩阵,为对角线元素dii=1的对角矩阵,sij表示矩阵S中第i行j列的元素,i∈[1,n],j∈[1,n],L是S的拉普拉斯矩阵,L=D-S;||·||F表示F范数,Tr(·)表示矩阵的迹,λ是罚项参数,取值范围为[10-5,105];步骤4:构造结果标签矩阵设置其元素均为0,然后,寻找软标签矩阵Z中的每一行的最大值并记录其位置,并令结果标签矩阵中对应行对应位置处元素的值为1,如此更新标签矩阵中所有行对应元素,即得到所有样本的结果标签矩阵本发明的有益效果是:由于在半监督学习中自适应地进行图的更新,不易受到初始图的影响,方法鲁棒性更高;通过设置正则化参数,可以缓解错误标签带来的影响,还可以发现新的类别,在提高方法准确性的同时使得方法更具实用性。附图说明图1是本发明的一种基于自适应图的半监督学习方法流程图图2是模拟数据集1以及本发明方法在模拟数据集1上的实验结果图3是模拟数据集2以及本发明方法在模拟数据集2上的实验结果图中,点表示未标记样本,星号表示已标记样本并且其类别为1,三角表示已标记样本并且其类别为2,圈表示已标记样本并且其类别为3。具体实施方式下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。如图1所示,本发明的一种基于自适应图的半监督学习方法,其实现过程如下:1、构造初始图对于样本集合X={x1,x2,…,xn},其中,前l个样本为已标记的样本,其余样本为未标记样本,已标记样本共有c个类别。利用聂等人在2016年的工作“NieF,WangX,JordanMI,etal.TheConstrainedLaplacianRankalgorithmforgraph-basedclustering[C]//ThirtiethAAAIConferenceonArtificialIntelligence.AAAIPress,2016:1969-1976”中提出的构图方法构造得到样本集合初始图的权重矩阵W,W中第i行j列的元素wij为:其中,权重矩阵W是稀疏的并且具有c个联通分量,更适合半监督学习的任务。为了发现新的类别,在已有的c个类别上增加一个类别,即类别集合为C={1,2,…,c+1}。设样本的标签矩阵Y∈Rn×(c+1),对于已标记的样本xi(i=1,2,…,l),若它的类别为j(j=1,2,…,c),则yij=1,对于未标记样本xi(i=l+1,l+2,…,n),将其初始标签设置为1,即设置yi,c+1=1,i=l+1,l+2,…,n;令标签矩阵Y中其余元素为0,即得到样本标签矩阵Y。2、设置正则化参数令U是正则化参数矩阵,U∈Rn×n为对角矩阵,其第i个对角线元素μii即为第i个样本的正则化参数。为了方便起见,将所有的已标记样本的正则化参数都设置为统一的值μl,将所有未标记样本的正则化参数设置为统一的值μu。如果已标记样本的标签正确,令则半监督学习中不会改变现有的已标记标签;如果已标记样本的标签中存在错误,令则半监督学习中会改变现有的已标记样本标签。对于未标记样本,令则按照已有类别将未标记样本分类即不会增加新的类别;令则有能力发现未标注的新类别。通过设置正则化参数,可以改变方法对于已有标签的置信度,从而达到发现新的类别以及修改已有标签的错误标签的目的。3、利用半监督学习得到未标记样本的软标签矩阵Z以步骤1得到的初始图权重矩阵W、标签矩阵Y和步骤2得到的正则化参数矩阵U为输入,最小化以下目标函数:即得到软标签矩阵Z,其中,Z∈Rn×(c+1),zij是软标签矩阵的第i行第j列的元素,它表示的是第i个样本xi属于第j个类别的概率。S表示更新后的图的权重矩阵,D是S的度矩阵也是对角线矩阵,其对角线元素dii=1,sij表示S矩阵第i行j列的元素(i,j∈[1,n]),L是S的拉普拉斯矩阵,L=D-S。||·||F表示F范数,Tr(·)表示矩阵的迹,λ是罚项参数,取值范围为[10-5,105]。可以利用迭代优化方法来求解上述目标函数。S的初始值设置为W,λ取值为0.1。4、计算所有样本的结果标签矩阵构造结果标签矩阵初始时令其元素均为0,然后,寻找软标签矩阵Z中的每一行的最大值并记录其位置,并令结果标签矩阵中对应行对应位置处元素的值为1,即如果矩阵Z中第i行的最大值为zij,则认为第i个样本的标签为j,令矩阵中的第i行j列元素如此找到所有样本的标签,并更新标签矩阵对应元素,即得到所有样本的结果标签矩阵本实施例在中央处理器为i5-34703.2GHzCPU、内存4G、WINDOWS7操作系统上,运用MATLAB软件进行的仿真。仿真中分别使用模拟数据集和基准数据集。两个模拟数据集分别为:模拟数据集1是三种类别的数据,其中包含两个已标记的数据,如图2(a)所示;模拟数据集2是两个类别的数据,其中包含8个已标记的数据,其中2个已标记数据的标签是错误的,如图3(a)所示。对于模拟数据集1,令和则其分类结果如图2(b)所示,可以看出本发明方法具有发现新的类别的能力。对于模拟数据集2,令和则其分类结果如图3(b)所示,可以看出本发明方法具有修正已标记数据的错误标签的能力。即通过设置正则化参数,本发明方法可以缓解错误标签带来的影响以及发现新的类别,在提高方法准确性的同时使得方法更具有实用性。使用“ChapelleO,ScholkopfB,EdsAZ.Semi-SupervisedLearning,(Chapelle,O.etal.Eds.;2006)[Bookreviews][J].IEEETransactionsonNeuralNetworks,2009,20(3):542-542.”文献提供的基准训练集(包含数据集Digit1,USPS,COIL和BCI)对不同方法进行准确率测试。该基准数据集在每个数据集上随机选择100个点给出其标签,共12种随机选择的结果,在这12中情况下分别测试然后求出其平均错误率。分别选择LDS算法、LGC算法、GGSSL1和AEW算法作为对比算法。其中,LDS算法记载在文献“ChapelleO.Semi-SupervisedClassificationbyLowDensitySeparation[J].Proc.AISTATS'05,2005.”中;LGC算法记载在文献“ZhouD,BousquetO,LalTN,etal.Learningwithlocalandglobalconsistency[C]//InternationalConferenceonNeuralInformationProcessingSystems.MITPress,2003:321-328.”中;GGSSL1算法记载在文献“NieF,XiangS,LiuY,etal.Ageneralgraph-basedsemi-supervisedlearningwithnovelclassdiscovery[J].NeuralComputing&Applications,2010,19(4):549-555.”中;AEW算法记载在文献“KarasuyamaM,MamitsukaH.Adaptiveedgeweightingforgraph-basedlearningalgorithms[J].MachineLearning,2016,106(2):1-29.”中。在这里基准数据集的已标记数据都是正确的,令和计算结果如表1所示。可以看出,本发明的方法在这五个数据集上错误率最低,具有良好的性能,算法鲁棒性更高。表1MethodDigit1USPSCOILBCILDS3.464.9613.7243.97LGC2.387.0814.9744.81AEW2.4311.3410.6942.22GGSSL12.396.389.4845.44本发明方法1.714.348.6634.29当前第1页1&nbsp2&nbsp3&nbsp

半监督学习matlab,基于自适应图的半监督学习方法与流程相关推荐

  1. 基于自适应图学习的不完整多视图谱聚类

    论文:IEEE Xplore Full-Text PDF:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8587123&am ...

  2. 半监督学习下的高维图构建

    简述 介绍 概述 总结 一.简述 本次翻译一篇Liu Wei的一篇论文,之前介绍谱聚类的时候大家都知道,用谱聚类对样本进行分割,大概的流程就是先将原始数据通过不同的规则构建出相似度矩阵,然后再用相似度 ...

  3. 监督学习和无监督学习_让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法...

      新智元报道   来源:GoogleAI 编辑:元子 [新智元导读]Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果.该方法超越了所有现有的半监督学习方法,并实现了仅使用 ...

  4. 峰值旁瓣matlab,基于置信图峰值旁瓣比优化的遮挡目标跟踪方法与流程

    本发明属于图像处理技术领域,涉及一种基于置信图峰值旁瓣比优化的遮挡 目标跟踪方法. 背景技术: 目标跟踪是计算机视觉中的热点问题,在行为分析.智能监控.智能交通. 汽车导航以及人机交互等领域扮演着十分 ...

  5. 论文解读 | 利用自适应图推理的光流学习方法

    此篇论文已被 AAAI 2022 收录,论文链接请见"阅读原文". 研究动机 光流可以表达视频两帧图像之间的像素级对应关系,它是视频理解和分析领域中的一项基本任务.尽管基于深度学习 ...

  6. 基于自适应图正则化的低秩表示

    相关工作:  1.稀疏子空间聚类SSC 2.低秩表示LRR 存在缺点:LRR和SSC目标只在于学习发现样本的低维表示结构 而忽略了局部距离关系:而且,每一个样本的表示系数不能清晰地展示样本之间的相似度 ...

  7. MATLAB | 基于分块图布局的三纵坐标图绘制

    关于代码 这种图是在公众号「海洋与大气科学」看到的,公众号大哥已经给出了这类图的绘制方式,但是发现在比较新的版本(R2021a及之后),可以使用 tiledlayout 分块图布局更加自然的写出,于是 ...

  8. 基于协同训练的半监督文本分类算法

    标签: 半监督学习,文本分类 作者:炼己者 --- 本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! 如果大家觉得格式看着不舒服,也欢迎大家去看我的 ...

  9. 详解基于图卷积的半监督学习

    Kipf和Welling最近发表的一篇论文提出,使用谱传播规则(spectral propagation)快速近似spectral Graph Convolution. 和之前讨论的求和规则和平均规则 ...

最新文章

  1. c# 任务栏托盘图标鼠标进入MouseEnter和鼠标离开MouseLeave实现
  2. 把阿里巴巴的核心系统搬到云上,架构上的挑战与演进是什么?
  3. 请交一个关于域的问题
  4. 孤陋寡闻了吧?Python 居然可以做这30件神奇好玩的事情(附教程)
  5. 大剑无锋之GC【面试推荐】
  6. iOS 高级去水印,涂鸦去水印
  7. 【转】刨根究底字符编码之零——前言
  8. 数据库的基本命令操作
  9. markdown中让表格居中的写法
  10. 简单易懂的现代魔法——Play Framework攻略2
  11. 洛谷p3398仓鼠找suger题解
  12. 用计算机来猜星座,[转]实用推荐---三个问题猜出对方的星座
  13. VB6实现数组Slice()函数,可以像JS一样,切片出一个新数组
  14. matlab统计学分析函数
  15. SylixOS学习二—— SylixOS认识和使用_SylixOS虚拟机使用
  16. Spans,一个强大的概念
  17. matlab指令汇总
  18. JS实现鼠标中心放大图片功能原理及实例演示
  19. CNN+LSTM--一种运动想象分类新模型
  20. 软件工程经验总结系列之二 - 概念阶段控制

热门文章

  1. ruoyi框架分页总条数total返回错误解决方案
  2. USACO 3.2 Magic Squares 魔板 (BFS-HASH)
  3. elasticsearch 怎么删除过期的数据
  4. 技嘉H510M H主板安装gtx660折腾记录
  5. 房地产楼盘三维展示|户型3D展示效果
  6. Mac Edge 浏览器开启几秒后自动关闭问题
  7. 【数学建模】经典简单例题实例1
  8. ArcGIS坡度分析(解决坡度分析80-89°高值居多)
  9. Android之友盟多渠道打包与数据统计(非原创)
  10. SAP-PM设备模块-PM主数据之设备主数据