本文转载自:https://www.leiphone.com/news/201801/MpY4WF11OTnFLp7y.html

图片均来源于转载地址

异质信息网络研究现状及未来发展

一、引言

现实生活中的大多数实际系统是由大量相互作用、类型不同的组件构成,当前的分析方法通常将其建模为同质信息网络(Homogeneous information network)。采用同质网络的建模方法往往只抽取了实际交互系统的部分信息,或者没有区分交互系统中对象及关系的差异性,这些做法都会造成信息不完整或信息损失。

最近,越来越多的研究人员开始将这些互连的多类型网络化数据建模为异质信息网络 [1](Heterogeneous information network),并且通过利用网络中丰富的对象和关系信息来设计结构分析方法。与广泛研究的同质信息网络相比,异质信息网络包含全面的结构信息和丰富的语义信息,这也为数据挖掘提供了新的机遇与挑战。

这里我们简单介绍这种建模方式的基本概念、分析方法和未来发展。

[1] 这里我们将 Homogeneous / Heterogeneous information network 翻译成为同质/异质信息网络。虽然有些学者将其翻译为同构/异构信息网络,但是这种翻译容易和通信网络中的同构/异构网络的概念混淆。另外,同质/异质更能反映网络中节点和边的类型和性质不一样这种特性。

二、基本概念

我们先介绍一下异质信息网络中的基本概念。

2.1 概念

异质信息网络被定义为一个有向图,它包含多种类型的对象或者关系,每个对象属于一个特定的对象类型,每条关系属于一个特定的关系类型。网络模式(Network schema)是定义在对象类型和关系类型上的一个有向图,是信息网络的元描述。

图 1(a) 是一个由科技文献数据构成的典型异质信息网络实例。该网络包含三种类型的对象:论文、会议和作者;每篇论文有到作者和会议的链路关系,每条链路属于一种关系类型。

图 1(b) 是该网络的网络模式,描述了文献网络包含的对象类型(会议、论文、作者)和相应的关系(撰写/被撰写、出版/被出版、引用/被引用)。

异质信息网络分析中一个重要的概念是元路径(meta-path)。元路径是定义在网络模式上的链接两类对象的一条路径,形式化定义为

,表示对象类型之间的一种复合关系 R = R 1 ∗ R 2 ∗ . . . . . . ∗ R l R=R1*R2*......*Rl R=R1∗R2∗......∗Rl,其中 ∗ * ∗ 代表关系之间的复合算子, A i A_i Ai​ 表示对象类型, R i R_i Ri​ 表示关系类型。

元路径不仅刻画了对象之间的语义关系,而且能够抽取对象之间的特征信息。图 2 显示了文献网络中两个元路径的例子,分别简记为「APA」和「APVPA」(A、P、V 分别表示作者、论文和会议类型)。可以看出,基于不同的元路径,对象之间的语义关系是不同的。元路径「作者-论文-作者」(APA)表示两个作者合作撰写了同一篇论文;元路径「作者-论文-会议-论文-作者」(APVPA)表示两个作者在同一会议上发表了论文。链接两类对象的不同元路径表示了不同的语义关系和不同的链接网络,这也造成了不同的分析结果和不同的特征表示。

实际上,大多数真实系统都存在多种类型对象的相互交互。例如,社交媒体网站(如微信和微博)包含多种类型的对象(如用户、帖子和标签)和这些对象之间的复杂交互(如用户之间的朋友、跟帖、通信等关系,用户和帖子之间的发布关系)。医疗系统包含医生、病人、疾病和设备等对象类型以及他们之间的交互。一般来说,这些交互系统都可以被建模为异质信息网络。

传统的同质网络建模方法只是抽取了这些真实交互系统的部分信息,而且这些信息往往也可以从异质信息网络中推导出来。例如,经常分析的作者合作网络可以通过元路径「APA」从上述科技文献网络中得到。

2.2 为什么要进行异质信息网络分析

作为数据挖掘的重要研究方向,在过去的近20年里,网络分析方法已经被深入研究,并且应用于很多数据挖掘任务,在这些工作中往往将网络化数据建模成同质信息网络。然而,异质信息网络的一些独特特征使得异质信息网络分析变得十分重要。

  • 首先,异质信息网络分析是数据挖掘的新发展。近年来,大量涌现的社会媒体网站包含许多不同类型的对象和对象之间复杂的交互。将这些相互作用的对象建模为同质网络是很困难的,然而使用异质信息网络为其建模却是很自然的方式。特别的,大数据的一个显著特征是数据的多样性,作为半结构化的表示方法,异质信息网络可以有效建模和处理大数据中复杂多样的数据。

  • 其次,异质信息网络是融合更多信息的有效工具。与同质网络相比,异质网络可以融合更多类型的对象及其之间复杂的交互关系,也可以融合多个社交网络平台的信息。

  • 最后,异质信息网络包含丰富的语义。在异质网络中,不同类型的对象和链接共存,它们具有不同的语义含义,在数据挖掘任务中考虑语义信息将导致更细微的知识发现。同质网络中的大多数方法并不能直接应用于异质网络中,因此在异质信息网络中发现有趣的模式是十分必要的。

三、研究现状

3.1 研究现状概述

异质信息网络为更好地分析网络化数据提供了一种新的研究模式,同时也给许多数据挖掘任务带来了新的挑战。很多基于异质信息网络的数据挖掘问题已经被广泛研究,图 3 是对过去 6 年这一方向相关研究工作的近 200 篇论文按照研究问题分类的分布图。从图中可以看出,异质信息网络已经广泛应用于主要的数据挖掘问题,特别是相似性度量、聚类、分类、链接预测、推荐等任务。

异质信息网络建模的优势在于整合更多信息和包含丰富语义,这同时也造成了异质信息网络分析的难点:如何有效利用异质信息和探索丰富语义。

作为有效利用异质信息和探索语义的工具,元路径被广泛应用于异质网络分析。例如,PathSim 利用对称元路径抽取两个节点之间的连通路径来度量二者的相似性,这样不仅利用到了相关的异质信息,而且体现了节点和边的丰富语义。很多机器学习技术都可以应用到异质网络分析中,例如随机游走模型、主题模型、矩阵模型和概率模型。各类信息也都能够整合到异质网络分析中,例如属性信息、文本信息和用户指导信息。

图 4 从网络结构和语义探索两个角度,总结了该领域的一些典型工作。沿着 X 轴,网络结构变得更加复杂;沿着 Y 轴,语义信息变得更加丰富。

例如,PathSim 可以处理星型模式网络,并使用元路径挖掘语义关系。SemRec 在基本元路径上增加了链接的权值约束,以在带权异质网络中探索更微妙的语义信息。从图中我们可以发现,大多数研究都集中在简单网络结构(例如二分或星型模式网络)和基本语义探索(例如元路径)上,未来在利用更强大的语义探索工具分析更复杂的异质网络方面还需要做更多探索。

四、未来发展

虽然异质信息网络已经应用于很多数据挖掘任务,但它仍然是一个年轻而且快速发展的研究领域。在这里我们简单讨论一下未来的研究方向。

4.1 更加复杂的网络构建

当前研究大多假定异质信息网络是明确定义的,网络中的对象和关系是清晰的。然而,在实际应用中,从真实数据构造异质信息网络会遇到很多挑战。对于关系数据库之类的结构化数据,构造异质信息网络比较容易,然而即使是在这种网络中,对象和关系也可能具有噪声,比如会出现对象重名或关系不完整等问题;对于像文本、图像等非结构化数据,如何准确抽取出相应的对象和关系,进而建立更加完善和准确的异质信息网络也将面临更多挑战,在实践中会用到诸如信息抽取、自然语言处理、图像处理等各种技术。

4.2 更加强大的分析方法

在异质信息网络中,对象可通过不同的方式组织在一起。星型模式是广泛使用的异质信息网络类型,例如前面介绍的科技文献网络。之后,又出现了带环的星型模式和多中心网络等网络模式。

实际应用中,网络化数据通常更加复杂和没有规律性。某些实际网络中的链路会包含属性值,而这些属性值可能包含重要的信息,这样就构成了带权异质信息网络,例如前面介绍的电影网络。另外一些应用中,用户可能存在于多个异质网络,这时需要对齐不同网络中的用户,有效融合不同网络的信息。还有很多网络数据,例如知识图谱,包含有很多种类型的对象和关系,很难用简单的网络模式来描述。这种丰富模式(schema-rich)的异质网络中也出现了很多新的研究问题,例如多种类型对象关系的管理以及元路径的自动产生等。这些复杂的网络化数据,给异质信息网络建模与分析提出了更多的机遇和挑战。

异质信息网络中的对象和关系包含着丰富的语义信息,而元路径可以捕捉这种语义信息。异质信息网络上的很多数据挖掘任务是基于元路径进行研究的,但是元路径在某些应用场景中并不能捕捉到精细的语义信息。例如,“作者-论文-作者”路径表示了作者之间的合作关系,但却不能描述特定条件下(例如KDD领域)的合作关系。为了克服这个不足,很多研究者提出了受限元路径、带权元路径、元结构等概念扩展元路径的语义抽取能力。针对更加复杂的网络结构(如知识图谱),如何设计更加灵活精细的语义探索工具仍然需要进一步的研究。

近些年出现的深度学习在图像、自然语言等高维复杂数据处理上展现了优异的特征抽取能力,因此可以利用深度学习方法处理异质网络数据。当前深度学习和表示学习已经开始用于网络的结构特征表示。异质网络中包含不同类型的节点和边,而且元路径体现了丰富的语义信息,这些特征使得异质网络的特征表示学习表现出很大的不同。异质网络的表示学习对异质网络分析提出了新思路,也为结构信息与其他模态信息融合提供了新途径。

4.3 更大数据的处理

为了展现异质网络建模的优势,我们需要在更广泛的领域中对大型网络化数据设计实用的数据挖掘算法。多样性是大数据的重要特征,异质网络是处理大数据多样性的有效方法。然而,构建一个真正的基于异质网络的大数据分析系统也是具有挑战性的工作。实际的异质网络是巨大的,甚至是动态的,所以它通常不能存储在内存中直接处理。由于用户往往只对一小部分节点、链接或子网络感兴趣,我们可以根据用户需求,从现有网络中动态地提取子网络进行分析。另外,设计基于异质网络的快速算法和并行算法也是亟需研究的内容。

其他一些研究方向也值得关注。相比于学习大数据的深层特征的深度学习方法,最近兴起的广度学习(broad learning)整合不同类型的多个数据源进行融合学习,并在一些应用中取得了显著效果。由于异质信息网络是大数据时代整合不同类型数据的天然工具,因此结合异质信息网络研究广度学习方法不仅会推动新的机器学习方法的发展,而且为解决大数据的多样性提供新的思路。针对具体问题的异质网络分析系统也是重要发展方向。2017年KDD的最佳应用论文利用异质网络和元路径构建和描述Android手机的APP应用和API调用的丰富交互,并将其用于恶意软件检测。这也为采用异质信息网络解决实际问题带来有益启示。

五、结论

近年来,由于异质信息网络包含全面的结构和丰富的语义信息,采用异质网络建模和分析的研究大量涌现。本文对这个发展快速的领域进行了一个简要的介绍,希望研究者更好地了解异质信息网络分析的基本思路和特点,能够采用这种模式对实际的网络化数据进行建模和分析。

北邮石川教授:「异质信息网络」研究现状及未来发展相关推荐

  1. 【GNN报告】北邮石川组

    石川:GAMMA Lab介绍 简介 实验室简介 北邮图数据挖掘与机器学习实验室(GAMMA Lab, Graph dAta Mining and MAchine learning Laboratory ...

  2. 【大咖说Ⅰ】北邮博导石川教授:图机器学习及其应用

    欢迎来到2022 CCF BDCI大咖说系列专题报告 听顶级专家学者围绕特定技术领域或选题,讲述自身成果的研究价值与实际应用价值 便于广大技术发烧友.大赛参赛者吸收学术知识,进行深度学习 10月31日 ...

  3. 北邮计算机学院石川,祝贺石川教授团队两篇论文被ACM SIGKDD2019接收!

    我院石川教授团队有两篇论文被刚刚揭晓的国际会议ACM SIGKDD 2019接受.ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的顶级国际会议.自 1995 年以来 ...

  4. 传闻要被「降级」的这所211高校,让这位网红教授「救活了」

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 太原理工大学,最近着实有点火. 先是11月12日至13日,其官网一口气更新了3位「杰青」副校长,在高校任命中实属罕见之举,消息轰动一时. 再 ...

  5. 燕山大学教授「跨界」推翻爱因斯坦引争议

    来源:知乎\新智元 近日,一项名为「坚持唯物主义时空质能观发展牛顿物理学」的项目入选推荐 2021 年度河北省科学技术奖,项目全部由燕山大学李子丰教授贡献.该话题引起广泛热议,有人认为作者拿马克思主义 ...

  6. 专栏 | 李航教授展望自然语言对话领域:现状与未来

    来源:机器之心 摘要:原华为诺亚方舟实验室主任.现已加入字节跳动 AI Lab的李航教授近日发表博客,对自然语言对话领域的现状和最新进展进行总结,并展望了未来的走向. 1. 引言 语音助手.智能客服. ...

  7. 南科大新任校长薛其坤:考研3次才进入中科院,杨振宁曾点赞他「诺奖级」研究成果...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 建校十周年之际,南方科技大学迎来了第三位校长: 原清华大学副校长.中国科学院院士薛其坤. 官网上也正式官宣: 值得一提的是,下个月的今天-- ...

  8. 14 篇论文为你呈现「迁移学习」研究全貌 | 论文集精选 #04

    PaperWeekly 是一个 AI 学术分享社区.这里聚集了大批一线 AI 学者,他们用精炼妙语推荐各自发现的优质论文.点击本文底部的「阅读原文」即刻加入社区,创建属于你的论文集. 这里是第 4 期 ...

  9. 「科技农人」,可能是未来的当红职业

    在云南高原,用人工智能远程控制的草莓种子,要开始生长了. 平地很少,土地零散的分布在大山里,这是云南省怒江州典型的地貌. 常年湿热.降水量大,按理说,土壤和气候都并不适合种植高要求的作物,但当地的村民 ...

最新文章

  1. jQuery AJAX 网页无刷新上传示例
  2. 人工智能的爆点来临,这些金科玉律先得掌握
  3. mysql double 使用_mysql使用double的坑
  4. mysql 字符类型
  5. java 断点续传 开源_java断点续传原理
  6. Windows之Wireshake之抓HTTP请求包(过滤目的IP)
  7. 图像PSNR值及MSE值的计算
  8. 【华为云技术分享】实战案例丨代码优化:如何去除context中的warning?
  9. 【转】python os.popen 超时问题
  10. Applet与NoClassDefFoundError那不为人知的故事[转]
  11. 计算机模运算规则,补码,模运算和溢出
  12. 初级工程师该如何去学习,如何去研发开关电源?
  13. 如何对apk文件进行反编译
  14. shell脚本实现从master节点批量配置salve节点(主机名有瑕疵,IP映射,ssh服务)
  15. python3 解压7z文件
  16. python数据导入之导入各类文件方法
  17. 《Adobe Photoshop CS6中文版经典教程(彩色版)》—第2课2.7节使用海绵工具调整饱和度...
  18. JavaScript的压缩工具
  19. 【概念理解】typedef-Lnode-*Linklist
  20. 学习JAVA需要掌握的英文单词

热门文章

  1. maven 打包打出带依赖的和不带依赖的jiar包
  2. 如何让小红书笔记排名在前面(小红书笔记排名至顶)?
  3. win10 如何使用命令简单的禁用自带键盘
  4. 详解用爬虫批量抓取猫眼电影票房数据
  5. 一个好的导演拍不了一场好戏--校园路-访谈戴谢宁总结(2005.5)
  6. 最新Win10离线安装.NET Framework 3.5的方法(不需要离线包,只需原版系统安装包,亲测完美快捷有效)
  7. [AI达人特训营第三期] 使用Lora技术用Dreambooth训练国潮风格模型
  8. html 刷新表格数据,当我刷新页面时在html表格上重复数据
  9. JAVA文件下载,IE不提示下载,直接打开的解决方法
  10. 基于c#的区块链编程_3.区块链 · C#区块链编程入门教程-巴比特图书