2019-11-25 11:01:57

选自arXiv

机器之心编译参与:路雪、一鸣

近日,南大周志华等人首次提出使用深度森林方法解决多标签学习任务。该方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能。

在多标签学习中,每个实例都有多个标签,多标签学习的关键任务就是利用标签关联(label correlation)构建模型。深度神经网络方法通常将特征和标签信息共同嵌入到潜在空间,以充分利用标签关联。但是,这些方法的成功高度依赖对模型深度的精确选择。
深度森林是近期基于树模型集成的深度学习框架,该方法不依赖反向传播。最近,来自南京大学周志华团队的研究者发布了一篇论文,他们认为深度森林的优势非常适合解决多标签问题,并设计了多标签深度森林方法(Multi-Label Deep Forest,MLDF)。
论文链接:https://arxiv.org/abs/1911.06557
MLDF 使用了两种机制:度量感知特征重用(measure-aware feature reuse)和度量感知层增长(measure-aware layer growth)。度量感知特征重用机制根据置信度重用前一层中的优秀表征,度量感知层增长机制确保 MLDF 根据性能度量指标逐渐增加模型复杂度。
MLDF 可以同时处理两个难题:限制模型复杂度从而缓解过拟合问题;根据用户需求优化性能度量指标,因为多标签评估存在多个不同的度量指标。实验证明,该方法不仅在多个基准数据集、六个性能度量指标上击败了其他对比方法,还具备多标签学习中的标签关联发现和其他属性。
多标签学习该怎么解
在多标签学习中,每个示例同时与多个标签相关联,多标签学习的任务即为新实例预测关联标签集。多标签学习任务在现实世界中比比皆是,因此该研究领域也吸引了越来越多的注意力。
二元关联(Binary Relevance)方法将多标签学习问题转换为每个标签的独立二分类问题,这一直接方法在实践中广为应用。尽管它充分利用传统高性能单标签分类器,但是当标签空间很大时,该方法会带来极大的计算成本。
此外,此类方法忽视了一点:一个标签的信息可能有助于学习其他相关标签。这限制了模型的预测性能。因此,越来越多旨在探索和利用标签关联的多标签学习方法应运而生。
与传统的多标签方法不同,深度神经网络模型通常试图学习新的特征空间,并在其上部署一个多标签分类器。但是,深度神经网络通常需要巨量训练数据,因而不适合小规模数据集的情况。
周志华教授和冯霁博士意识到,深度学习的本质在于逐层处理、模型内特征变换和足够的模型复杂度,进而提出了深度森林。深度森林是基于决策树构建的深度集成模型,其训练过程不使用反向传播。集成了级联结构的深度森林能够做到类似于深度神经模型的表征学习,而深度森林的训练过程要简单得多,因为它具备较少的超参数。尽管深度森林在传统分类任务中很有用,但此前研究人员并未注意到将其应用于多标签学习的潜力。
用深度森林,解决多标签学习任务
深度森林的成功主要依赖于以集成方式进行逐层特征变换,而多标签学习的重点就是利用标签关联。受此启发,周志华团队提出了 MLDF 方法。简单来说,MLDF 方法使用不同的多标签树方法作为深度森林的构造块,通过逐层表征学习利用标签关联。
由于多标签学习的评估过程要比传统分类任务更加复杂,因此研究人员提出了大量性能度量指标 [Schapire and Singer, 2000]。研究人员还注意到,不同用户的需求不同,算法在不同度量指标上的性能往往不同 [Wu and Zhou, 2017]。
为了实现特定度量指标上的更好性能,周志华团队提出了两种机制:度量感知特征重用和度量感知层增长。前者受到置信度筛选(confidence screening)[Pang et al., 2018] 的启发,重新利用前一层中的优秀表征。后者则根据不同的性能度量指标控制模型复杂度。
这篇论文的主要贡献包括:

  • 首次提出将深度森林应用于多标签学习任务;
  • 实验证明,MLDF 方法在 9 个基准数据集、6 个多标签度量指标上实现了最优性能。

多标签深度森林(MLDF)
下图 1 展示了 MLDF 的框架。MLDF 的每一层集成了不同的多标签森林(上方的黑色森林和下方的蓝色森林)。

图 1:MLDF 框架图示。每一层集成了两种不同的森林(上方的黑色森林和下方的蓝色森林)。
从 layer_t 中,我们可以得到表征 H^t。度量感知特征重用机制将接收表征 H^t,并在不同指标性能的指引下,重新利用 layer_t−1 学得的表征 G^t−1 来更新表征 H_t。然后,将新的表征 G^t(蓝色)和原始输入特征(红色)级联在一起,输入到下一层。
在 MLDF 中,每一层都是森林的集成。为了提升该集成的性能,研究者考虑了不同的树增长方法,以鼓励多样性,这对集成方法的成功至关重要。
MLDF 用 RF-PCT [Kocev et al., 2013] 作为森林模块,并对森林应用两种不同的树节点生成方法:一种方法是 RF-PCT,它考虑每个特征的所有可能分割点;另一种方法是 ERF-PCT,它随机考虑一个分割点。当然,其他多标签树方法也可以嵌入每个层中,如 RFML-C4.5。
度量感知特征重用
PCT 的分割标准不与性能度量指标直接相关,当指标不同时,每一层生成的表征 H^t 是相同的。因此,研究者提出了度量感知特征重用机制,在不同度量指标的指引下改进表征。
度量感知特征重用的关键想法是:如果当前层的置信度低于训练中设定的阈值,则在当前层上部分地重用前一层中的优秀表征,从而提升度量指标性能。
算法 1 总结了度量感知特征重用的过程。由于基于标签的指标和基于实例的指标存在很大的差异,我们需要分别进行处理。具体来说,基于标签的指标在 H^t 的每一列上计算置信度,基于实例的指标基于每一行计算置信度。计算完成后,当置信度 α^t 低于阈值,则固定前一层的表征 G^t−1,并利用它更新 G^t。

度量感知层增长
尽管度量感知特征重用能够在不同度量指标的指引下高效改进表征,但该机制无法影响层增长,不能降低训练过程中出现过拟合的风险。为了减少过拟合、控制模型复杂度,研究者提出了度量感知层增长机制。
MLDF 是逐层构建的。算法 3 总结了 MLDF 训练过程中度量感知层增长的步骤:

实验
研究者在不同的多标签分类基准数据集上测试了 MLDF 的性能。其目标是验证 MLDF 方法可在不同度量指标上实现最优性能,前述两种度量感知机制是必需的。此外,研究者通过不同角度的详细实验证明了 MLDF 的优点。
研究者选择了 9 个来自不同应用领域、具备不同规模的多标签分类基准数据集。下表展示了这些数据集的基本信息:

表 3:数据集描述:领域(Domain)、样本数(m)、特征数(d)和标签数(l)。
在这 9 个基准数据集上,MLDF 在所有评估度量指标上均取得优秀的结果:98.46% 的情况下性能位列第一,1.54% 的情况下位列第二。根据 6 个度量指标的对比结果,MLDF 夺得第一的比例分别是 100.00%、96.29%、96.29%、100.00%、98.15%、100.00%。总之,MLDF 在大量基准数据集、多个评估指标上取得了最优性能,超过其他公认方法,这验证了 MLDF 方法的有效性。

表 4:每个方法在 9 个数据集上的预测性能(均值 ± 标准差)。•(◦) 表示 MLDF 明显优于(逊于)其他对比方法,评估标准是成对 t 检验,显著性水平为 95%。↓ (↑) 表示值越小(大),性能越好。

9大数据集6大度量指标完胜,周志华等提出深度森林处理多标签学习相关推荐

  1. 周志华团队:深度森林挑战多标签学习,9大数据集超越传统方法

    来源:arXiv 本文转载自新智元(公众号ID:AI_era),未经许可请勿二次转载. [导读]南京大学周志华团队最新研究首次将深度森林引入到多标签学习中,提出多标签深度森林方法MLDF,在9个基准数 ...

  2. 南大周志华团队开源深度森林软件包DF21:训练效率高、超参数少,普通设备就能跑 | AI日报...

    中国学者研发新型电子纹身,实现8倍延展,有望用于医疗.VR和可穿戴机器人等领域 可穿戴设备,已经成为我们生活中极为常见的一种设备,它们体积轻巧.佩戴方便.检测数据齐全,但也存在一个很明显的缺点--无法 ...

  3. 2020年AI将会如何发展?吴恩达、周志华、Yann LeCun等大神对2020年 AI 发展趋势的预测的预测...

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 本文选自deeplearning.ai 终于,我们开启了 2020 年的进度条,在新的 ...

  4. NIPS论文排行榜出炉,南大周志华5篇论文入选

    作者 | 非主流 出品 | AI科技大本营 作为人工智能领域的顶会,已经有 30 年历史的 NIPS 今年以来一直风波不断.先是被爆出 NIPS 2017 出现了性骚扰行为,然后又被 diss 会议名 ...

  5. 【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来

    28 日,阿里巴巴达摩院发布 2022 十大科技趋势.其中,"大模型参数竞赛进入冷静期,大小模型将在云边端协同进化"的断言,在 AI 圈备受关注. 2021 是大模型爆发之年,我们 ...

  6. 周志华:华为-南大LAMDA人工智能联合实验室正式成立

      转载于 新智元   来源:新智元综合报道 编辑:金磊 [新智元导读]"到华为去",说到做到.昨日,南京大学计算机系主任.人工智能学院院长周志华发布朋友圈表示:华为-南大 LAM ...

  7. 高考报 AI 专业?南大周志华:当然!清华孙茂松:再考虑一下

    By 超神经 场景描述:又到了高考放榜的时刻,接下来就是准大学生们选专业的环节.「人工智能」首次成为本科可选专业,在风头正盛的当下,到底该如何去抉择?不妨从行业大佬以及网友的看法中,去看看热潮背后的冷 ...

  8. 南大周志华清华胡事民入围院士候选!计算机领域共计7人

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2021 ...

  9. IJCAI 2021:周志华任大会首个华人程序主席,南大校友获AIJ杰出论文奖

    来源:新智元 [导读]近日,IJCAI 2021在线上开幕,IJCAI史上首位华人程序主席南大周志华教授分析本届大会论文接收情况:中国投稿量最多,最热门的前四个领域论文接收率占56%,此外还总结了通过 ...

最新文章

  1. 全国大学生智能汽车竞赛-讯飞赛道规则解读
  2. PaddlePaddle yolov3
  3. 元气森林网络推广外包来势汹汹,地毯式营销旨在打造国民品牌
  4. 时间日期格式转换_JAVA
  5. python 单元测试 unittest
  6. 奥克兰大学计算机科学与技术,奥克兰大学与2016级计算机科学技术专业(中外合作办学)学生见面会顺利进行...
  7. Java 8 新特性 Optional 类学习,理解并应用。NullPointerException空值检测
  8. (转载) Android两个子线程之间通信
  9. ubuntu配置LAMP
  10. qscoj:喵哈哈村的冒菜店(线段树区间合并)
  11. 【BZOJ3174】[TJOI2013]拯救小矮人(贪心,动态规划)
  12. 【转】在IIS 7.0上使用自签证书来启用SSL
  13. rgb sw 线主板接口在哪_有颜值也有实力!利民TL-C12S幻彩RGB电脑散热风扇评测
  14. 梯形图转化c语言,PLC梯形图转换成STL程序
  15. Golang内存逃逸
  16. 樱花漫地集于我心,蝶舞纷飞祈愿相随 発生:genesis 发生:genesis
  17. 中国式审美真的太可怕了
  18. Windows Azure Linux虚拟机获取root权限的办法
  19. python re.compile() 详解——Python正则表达式
  20. 第四章 使用 matplotlib 绘制散点图

热门文章

  1. 浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式 pth中的路径加载使用
  2. 巴菲特的逻辑数据分析
  3. java中堆与栈的区别 彻底理解
  4. 关键路径最早最迟开始时间
  5. jupyter notebook中%与!的区别
  6. 散列表(也叫哈希表),
  7. 海伦公式c语言编程funcd,c语言编程练习题及答案_0.doc
  8. LIVE 预告 | 南方科大张宇:神经网络可解释性综述
  9. 10 个最值得 Python 新人练手的有趣项目
  10. iPhone开发四剑客之《Objective-C基础教程》