Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach 用于信息检索的项目标签
文章目录
- 摘要
- 简介
- Tagging 方法
- 动机和总览
- 动机
- 总览
- TagGNN-IT
- 节点表示
- TagGNN-IT Propagation
- 损失
- 2.3 TagGNN-QI
- 2.3.1 边表示
- 2.3.2 TagGNN-QI Propagation
- 2.3.3 损失
- 2.4 TagGNN
- 2.5 Training and Inference
- 2.5.1 Training
- 2.5.2 Inference
- 3 实验
- 3.1 数据集
- 3.2 Experimental Setup
- 3.3 基准
- 3.4 Performance Comparison (Q1)
- 3.4.1 Results of Full Tag Prediction.
- 3.4.2 Results of Tag Completion.
- 3.5 消融研究(Q2)
- 3.5.1 Dual Loss L2.
- 3.5.2 Tag Name Emeddings.
- 3.5.3 homogeneity and heterogeneity of TagGNN.
- 3.6TagGNN的设计选择
- 3.6.1 层数的影响
- 3.6.2 GNN类型的影响
- 3.7 Expert Evaluation
论文题目:Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach 用于信息检索的项目标签:一种基于三方图神经网络的方法
作者:来自 华为诺亚方舟实验室
时间:2020
论文链接:https://doi.org/10.1145/3397271.3401438
Github链接:无
摘要
标记被认为是提高信息检索(IR)中相关匹配的成功的实践,特别是在item缺少丰富的文字描述的情况下。对于多标签文本分类或图像注释,已经有了大量研究。但是,缺少针对IR的项目标记的发表文章。由于不了解IR中独特的特性,直接将传统的多标签分类模型应用于项目标记并不理想。在这项工作中,我们建议将项目标记公式化为项目节点和标签节点之间的链接预测问题。为了丰富项目的表达,我们利用IR任务中的查询日志来构建一个查询-项目-标签三方图。与先前的研究不同,我们还通过一次双损失机制在统一框架中优化了完整标签预测和部分标签完成案例。
简介
信息检索(IR)是一个完善的研究领域,可以满足我们日常信息需求,例如Web搜索,App搜索,电子产品搜索,图像检索,音乐查找等。尽管文献中对基于文本的Web搜索进行了广泛的研究,但垂直领域的IR仍面临一些独特的挑战。与主要处理全文文档的Web搜索不同,其他一些领域中的项目文本说明不够丰富或简洁,无法传达其语义信息。为了说明此,我们以app搜索为例子。图1展示了Google play上的一个app样本,它包含了多种也行的信息,包括app沐橙,类别,研发者,屏幕快捷图片,和一个简短的描述。但是,描述只包含了更新信息。这样简短而嘈杂的项目说明增加了检索相关项目的难度。
在这种情况下,标记在帮助描述和丰富项目语义方面起着至关重要的作用。标签通常被描述为关键字,以描述诸如类别,功能,样式,相关实体,目标受众等项的关键信息。标记已被认为是提高检索性能的成功做法,尤其是对于缺少简洁文字说明的项目【20】例如,图1中的应用程序项具有一组标签,包括“游戏”,“ AR”(增强现实),“皮卡丘”等。当用户搜索查询“皮卡丘”时,这些标签使检索应用程序更加容易 游戏”或“ AR游戏”,但这不能仅通过文字描述来完成。标签的集合不仅可以增强相关性匹配,还可以用于查询重新制定和项目推荐【14】此外,显示标签和可单击的超链接及其关联项目可以帮助用户导航和浏览感兴趣的项目集合。
对于许多工业IR应用,项目标记是更好地进行项目组织和检索的关键要素。对于用户生成的内容,用户自己为其帖子提供标签(例如,Twitter中的tweet主题标签,Stack Overflow中的问题标签)。相反,对于平台生成的内容(即项目),例如应用程序,广告和新闻,标签及其与搜索的集成可能对用户不可见。项目标签已成为运营团队的一项常规任务[1]。 但是,手动标记非常耗时处理,如果项目语料库过大,可能会导致难以管理的工作。为了代替或补充手动标记过程,已经对自动物品标记进行了大量研究。 典型示例包括应用程序标记[3],新闻标记[21、23],博客帖子标记[17、27],问题标记[22、28],图像注释[4、35]。用于项目标记的潜在方法可以大致分为两种类型:关键词提取[8]和多标签分类[32]。关键短语提取方法(例如TF-IDF [19],Tex tRank [18],PositionRank [5])已广泛用于文本文档或网站,以从原始内容中识别最能描述文档主题的关键字 。这些方法主要遵循两个阶段的过程(即候选者提取→排名)。它们适用于长文档,但不适用于没有详细文字说明的项目,因为标签可能不会出现在项目说明中。这样,项目标签通常被表述为多标签分类问题[32],也就是说,将预定义项目集合中的相关标签分配给项目。 多标签分类模型已在文献中得到广泛研究,其中许多已成功应用于文本分类[2,15,25]。 但是,直接将传统的多标签分类模型应用于项目标签是次优的,尤其是在信息检索任务中。
在这项工作中,受图神经网络(GNN)最近成功的启发[29],我们提出将项目标签转换为项目节点和标签节点之间的链接预测问题,并提出基于GNN的项目标签模型(即 TagGNN)。 与以前的研究相比,我们的工作旨在解决以下限制:
1、大多数传统的多标签分类模型无法完全利用标签(即标签)之间的相关性。 相反,我们的公式支持通过节点表示来嵌入标签,从而更好地捕获相似标签之间的相关性。 由于语义相似的信息可以通过消息传递从邻居节点聚合,因此它也丰富了项目和标签节点的表示。 直观地,项目和标签不仅通过自身进行匹配,而且通过邻居项目和邻居标签进行匹配。
2、项目描述通常简短而嘈杂,因此很难从文本描述中提取语义信息以进行分类。 为了缓解此问题,我们建议不仅利用文本描述,而且还利用可用的查询日志来丰富项目的表示形式。 我们构建一个query-item-tag的三方图,其中query-item边缘指示查询日志中的交互(例如,点击或下载),而item-tag边缘则表示注释关系。 该三方图对于IR来说是唯一的,并导致具有多种类型的节点和边的异构GNN建模。 我们的TagGNN模型自然融合了商品标签(w.r.t. TagGNN-IT)和查询物品(w.r.t. TagGNN-QI)图。
3、实际上,某些新项目没有现有标签,需要进行完整标签预测。 一些旧项目具有部分不完整的标签(例如,手动标记),这些标签仅需要完成和完善标签。 IR任务中都需要这两种情况。 尽管现有工作集中在一个[15]或另一个[34]上,但我们在统一框架中优化了这两种情况。 为了实现这一目标,我们在训练过程中同时加入了主要损失和双重损失,以避免训练测试暴露偏差。
我们还强调,尽管存在一些利用GNN进行文本分类的工作[9,10,30],但我们还没有发现任何有关基于GNN的项目标记的已发表工作,这些工作被表述为链接预测问题。为了评估我们的TagGNN方法的有效性,我们对两个大型数据集进行了全面的实验,其中包括用于赞助产品搜索的开放广告标签数据集(KDDCup-2012)和用于应用搜索的私有工业应用标签数据集(Huawei-Dataset)。实验结果表明,我们的TagGNN方法在“不带标签”和“部分标签”设置下,在9种基线模型上均实现了精度的一致提高。 还进行了消融研究和参数分析,以验证我们的模型设计选择。
总而言之,我们的工作有以下主要贡献:
- 我们的工作将项目标签公式化为查询项目标签图上的链接预测问题,并提出了一种独特的基于三方图神经网络的方法。
- 我们的目标是完整标签预测和部分标签完成,并提出了一次双重损失以在统一学习框架中优化两种情况。
- 我们的实验结果表明,与基于文本的竞争方法和基于图形的竞争方法相比,它们均取得了显着改进。
本文的其余部分安排如下。 第二节
描述了我们的TagGNN方法。 第三部分报告了实验结果。 我们在第4节中回顾了相关工作,最后在第5节中总结了本文。
Tagging 方法
在本节中,我们首先介绍模型设计的动机,并概述TagGNN。 然后,我们描述模型的细节,包括三个部分:TagGNN-IT,TagGNN QI及其集成TagGNN。 最后,我们展示了用于标签预测的训练和推理策略。
动机和总览
动机
如今,将GNN应用于增强文本分类任务的趋势[9,10,30]。 受这些研究的启发,我们探索了将GNN用于IR中的项目标记的方法。 与文本分类不同,我们的工作旨在解决以下独特的挑战。
首先,物品标签问题通常具有较大的标签空间(超过数千个)。 期望捕获标签之间的丰富语义关系。 以图1为例,Pokemon具有两个高度相关的标签,即AR(增强现实)和VR(虚拟现实)。 这样的标签相关性指示相关标签的强共存或不存在。现有的GNN方法大多将文本分类模型化为节点分类问题,因为分类数通常很小(约数十个)。 但是,这忽略了类别标签的依赖性。
其次,查询信息在IR任务中很容易获得。 尽管项目缺少简洁的文本描述,但希望将查询日志中的外部信息加入其中。 例如,当用户搜索“聊天”并下载应用程序“ Facebook”时,可能暗示该应用程序在功能上与“聊天”相关。 因此,像“聊天”和“社交”这样的标签可能是不错的选择。 查询-项目交互的频率揭示了这种语义相关性的强度。 如何有效利用大量查询信息是构建准确的标签系统的基本问题。
第三,尽管现有项目节点在图中大部分具有边缘连接,但平台中每天都有许多新项目。 这些项目没有指向标记节点或查询节点的链接。 这给GNN带来了一个独特的挑战,使其既要处理完整标签预测案例又要处理部分标签完成案例。
总览
为了解决上述三个挑战,我们提出了基于GNN的商品标签方法TagGNN。 图2概述了TagGNN。 假设我们已经从IR系统获得了商品的相关查询,并且我们也知道了商品的相应标签。 然后,我们建立无向三方图以将查询,项目和标签链接在一起。 该图具有三种类型的节点,即查询,项目和标签。 请注意,如果我们不知道任何相关查询或项目的现有标签(或两者),则项目节点可以是单边的或完全隔离的。 然后,我们采用为项目标记而定制的TagGNN,以传播图中的所有信息,以获得更好的项目和标记表示形式。 最后,我们计算商品与所有标签之间的相似度,然后选择相似度最高的
[论文阅读笔记]2021_AAAI_Knowledge-aware Coupled Graph Neural Network for Social Recommendation 论文下载地址: htt ... 强化学习增强异质图神经网络 代码源:https://github.com/zhiqiangzhongddu/RL-HGNN 摘要 异构信息网络(HINs)涉及多种节点类型和关系类型,在许多实际应用中非 ... 一个有效的基于图卷积神经网络的社交推荐模型 原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ... Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ... Heterogeneous Information Network 传统的同构图(Homogeneous Graph)中只存在一种类型的节点和边,当图中的节点和边存在多种类型和各种复杂的关系时,再采用 ... Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection阅读笔记 文章标题:A ... Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation 个人总结 写在前面:为方便阅读,尽量使用中文总 ... 不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ... 图神经网络方法(Graph Neural Network) 概要 近年来图神经网络受到大家越来越多的关注,在文本分类(Text classification),序列标注(Sequence labeli ...Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach 用于信息检索的项目标签相关推荐
最新文章
热门文章