石川 等: 异质信息网络分析与应用综述
599
统等. 在这些系统中, 相互作用的组件可以抽象为信息网络
[2]
. 信息网络无处不在, 已经成为了现代信息基础
设施的重要组成部分. 因此, 信息网络分析引起了学术界和工业界研究者的共同关注. 为了更好地进行分析
挖掘, 大多数工作将信息网络建模成同质信息网络(homogeneous information network, 同质网络), 即网络中
仅包含相同类型的对象和链接, 例如作者合作网
[3]
和朋友圈
[4]
等. 同质网络建模方法往往只抽取了实际交互
系统中的部分信息, 或者没有区分对象及其之间关系的异质性, 从而造成不可逆的信息损失. 近年来, 更多的
研究者将多类型且互连的网络化数据建模为异质信息网络(heterogeneous information network, 异质网络), 实
现对现实世界更完整而自然的抽象. 例如, 文献数据中包含作者、论文、会议等不同类型的对象, 这些对象间
存在多种类型的关系: 作者和论文间的撰写/被撰写关系、会议和论文间的出版/被出版关系等. 利用异质网络
建模这种类型丰富且交互复杂的数据, 可以保留更全面的语义及结构信息.
相较于同质网络, 异质网络建模带来了两方面的好处.
(1) 异质网络是融合信息的有效工具, 不仅可以自然融合不同类型的对象及其交互, 而且可以融合异构
数据源的信息. 特别地, 随着“大数据”时代的到来, 在“大数据”中许多类型不同的对象互联, 将这
些交互对象建模为同质网络很困难, 但可以很自然地利用异质网络建模; 同时, 不同平台产生的异
构多源“大数据”仅捕获了部分甚至是有偏差的特征, 异质网络也可以自然融合这些异构数据源的信
息, 从而全面刻画用户特征
[5]
. 因此, 异质网络建模不仅成为解决大数据多样性的有力工具
[6]
, 而且
成为宽度学习的主要方法
[7]
;
(2) 异质网络中多类型对象和关系共存, 包含丰富的结构和语义信息, 从而为发现隐含模式提供了精准
可解释的新途径. 例如, 推荐系统的异质网络中不再只有用户和商品这两种对象, 而是包含店铺、
品牌等更全面的内容; 关系也不再只有购买, 而是含有收藏、喜爱等更精细的交互. 基于这些信息,
利用元路径
[8]
和元图
[9,10]
等语义挖掘方法, 可以产生更精细的知识发现, 如提高推荐系统的可解释
性及准确率等.
基于以上信息融合优势, 异质网络分析迅速成为数据挖掘、数据库和信息检索等领域的研究热点
[6,11]
, 大
量论文发表在相关领域的顶级会议和期刊上, 且全面涉及了各类基本任务, 如分类、聚类、推荐等. 随着网络
表示学习的兴起, 异质网络表示学习也迅速激发了广大研究者的兴趣, 学得的低维向量表示在加速下游任务
的同时, 也可以提升性能表现
[12,13]
. 近年来, 异质网络建模被广泛应用到实际系统中, 如电子商务
[14]
和网络
安全
[15]
, 同样取得了显著的效果. 与此同时, 相关研究者举办了一些异质网络研讨会和讲习报告, 吸引了人
工智能从业者的广泛关注. 例如, 异质网络分析研讨会(HINA 和 HENA) 与 IJCAI 和 CIKM 等会议联合举办了
多年.
本文全面总结了异质网络分析的工作, 特别是近几年来的研究新进展. 目前, 已有一些英文文献
[2,6,16, 17]
介绍了该方向的发展情况. 与现有工作相比, 本文的不同主要体现在两方面: (1) 文献[2, 16, 17] 侧重介绍作者
自身的工作, 而本文则通过系统调研已发表的 160 多篇异质网络相关论文, 总结了异质网络分析领域的总体
进展; (2) 文献[6]综述了 2017 年前异质网络的研究内容, 而本文全面涵盖了异质网络领域的最新发展和前沿
成果, 如加权元路径
[18]
、元图
[9,10]
和属性异质网络
[19]
等. 特别地, 近几年, 随着网络表示学习的兴起, 本文着
重介绍了异质网络表示学习的研究进展情况, 且本文是第一篇系统介绍该研究方向的中文综述论文. 此外,
基于已有成果和发展趋势, 本文还指出了该领域未来的研究方向.
本文第 1 节介绍异质网络领域的基础知识. 第 2 节和第 3 节分别从基于元路径的数据挖掘和异质网络表
示学习这两个方面全面介绍异质网络的发展现状. 第 4 节介绍异质网络在实际问题中的应用. 第 5 节总结全
文, 并展望未来发展方向.
1 异质网络基础知识
本节将介绍异质网络的主要定义和典型结构, 并进一步指出异质网络与其他网络模型的区别与联系.
评论