基于GAT2VEC的Web服务分类方法-肖勇，刘建勋，胡蓉，曹步清，曹应成.pdf

上善若水

188

17页

0次

2022-05-26

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2021,32(12):3751−3767 [doi: 10.13328/j.cnki.jos.006102] http://www.jos.org.cn

基于 GAT2VEC 的 Web 服务分类方法

∗

肖

勇

1,2

刘建勋

1,2

胡

蓉

1,2

曹步清

1,2

曹应成

1,2

(服务计算与软件服务新技术湖南省重点实验室(湖南科技大学),湖南湘潭 411201)

(湖南科技大学计算机科学与工程学院,湖南湘潭 411201)

通讯作者: 刘建勋, E-mail:ljx529@gmail.com

摘要: 随着 SOA 技术的发展,Web 服务被广泛应用,服务数量增长迅速.正确高效地对 Web 服务进行分类,对于提

高服务发现质量、促进服务组合效率非常重要.然而,现有的 Web 服务分类技术存在描述文本稀疏、未充分考虑属

性信息以及结构关系等问题,难以有效提升 Web 服务分类的精度.针对此问题,提出一种基于 GAT2VEC 的 Web 服务

分类方法.首先,针对 Web 服务之间的结构关系和自身的属性信息分别构建出多个相对应的结构关系图和属性二分

图,并采用随机游走算法生成 Web 服务的结构上下文和属性上下文;然后,利用 SkipGram 模型对联合上下文进行训

练,得到融合多维信息的表征向量;最后,采用 SVM 模型实现 Web 服务的分类预测.在 ProgrammableWeb 真实数据集

上进行对比实验,实验结果表明:相比于 Doc2vec,LDA,Deepwalk,Node2vec 和 TriDNR 这 5 种方法,所提出的方法在

Macro F1 值上有了 135.3%,60.3%,12.4%,10.5%和 4.3%的提升,切实提高了服务分类的精度.

关键词: Web 服务分类;GAT2VEC 模型;随机游走;SVM 模型

中图法分类号: T

P311

中文引用格式: 肖勇,刘建勋,胡蓉,曹步清,曹应成.基于 GAT2VEC 的 We b 服务分类方法.软件学报,2021,32(12):3751−3767.

http://www.jos.org.cn/1000-9825/6102.htm

英文引用格式: Xiao Y, Liu JX, Hu R, Cao BQ, Cao YC. GAT2VEC-based Web service classification method. Ruan Jian Xue

Bao/Journal of Software, 20 21,32(12):3751 −3767 (in Chines e). http://www.jos.org.cn/1000-9825/6102 .htm

GAT2 VEC-based Web Service Classifi cation Me thod

XIAO Yong

1,2

, LIU Jian-Xun

1,2

, HU Rong

1,2

, CAO Bu-Qing

1,2

, CAO Ying-Cheng

1,2

(Hunan Key Laboratory for Services Computing and Novel Software Technology (Hunan University of Science and Technology),

Xiangtan 411201, China)

(School of Computer Science and Engineering, Hunan University of Science and Technology, Xiangtan 411201, China)

Abstra ct : With the development of SOA technology, Web service is widely used and the number of services is growing rapidly. It is

very important to classif y Web s ervice correctly and efficiently to improve the quality of service discovery and p romote the efficiency of

service composition. However, the existing Web service classification technologies have some problems, such as sparse description text,

insufficient consideration of attribute infor mation, and structural relationshi p. Therefore, it is difficult to effectively improve the accuracy

of Web service classification. In order to solve this problem, this study proposes a GAT2VEC-based Web service classification method.

Firstly, according to the structural relationship between Web services and their own attribute information, several corresponding stru ctural

diagrams and attribute bipartite diagrams are constructed respectively, and the random walk algorithm is used to generate the structural

context and attribute context of Web services. Then , the SkipGram model is used to train the joint context to obt ain the word vector which

merges the multidimensional information. Finally, the SVM model is used to perform the classification and prediction of Web services.

∗ 基金项目: 国家自然科学基金(61872139, 61873316, 61702181); 湖南省自然科学基金(2018YFB1402800-04, 2018JJ2139, 2018

J2136, 2018JJ3190)

Foundation item: National Natural Science Foundation of China (61872139, 61873316, 61702181); Natural Science Foundation of

Hunan Province (2018YFB1402800-04, 2018JJ2139, 2018JJ2136, 2018JJ31 90)

收稿时间: 2019-11-21; 修改时间: 20 20-03-09; 采用时间: 2020-06-12

3752

Journal of Software 软件学报 Vol.32, No.12, December 2021

The experimental results show that compared with th e five methods of Doc2vec, LDA, Deepwalk, Node2Vec, and TriDNR, the proposed

method has 135.3%, 60.3%, 12.4%, 10.5%, and 4.3% improvement in Macro F1 value, which effectively improves the accuracy of s ervice

class if i c at io n.

Key words: Web services classification; GAT2VEC model; random walks; SVM model

Web 服务因其跨语言、跨平台、松散耦合、基于开放式标准等特点,成为 SOA(service-oriented arc hitecture)

的主流实现技术.随着 SOA 架构和 We b 服务相关标准的日趋成熟,网络上可用的 We b 服务越来越多.例如:截止

到 2020 年 3 月 20 日,ProgrammableWeb 网站上已经发布了 7 961 个 Mash up 和 23 368 个 Web API;而当开发人

员希望检索与消息传递相关的 Mash up 时,ProgrammableWeb 的搜索引擎将返回 1 695 个搜索结果.因此,在大量

服务中快速、准确地发现和选择所需要的服务,成为服务计算领域的关键问题之一.通常情况下,Web 服务缺少

规范的形式化的描述模型,如 Web 服务的描述文本内容过少、描述语言不规范等.前者使得服务缺乏足够有效

信息,难以被用户发现;后者使得服务描述随意性较大,可能导致相同的服务描述不一,而不同的服务却描述相

似,进一步增加了服务查找和发现的难度

[1]

.目前,该问题已引起了众多研究者的注意

[2]

.其中,如何通过自动服务

分类减少服务匹配过程中的候选服务数量,以提高服务查找和服务发现的准确性和效率,已成为了近年来的研

究重点.

目前,关于 We b 服务分类的研究主要以基于功能语义的服务分类方法为主.例如:Crosso 等人

[3]

将 WSDL

(Web service description language)中的元素进行分割去除停用词后,归至词根,然后利用不同的分类算法进行分

类.Katakis 等人

[4]

考虑了 Web 服务的文本描述和语义标注,解决了 Web 服务在其应用领域的自动分类问题.但是

WSDL 文档通常包含很少的描述内容,导致这些算法通常无法取得较满意的分类效果.随着机器学习的兴起,文

档主题生成模型开始引起了众多研究者的关注.Shi 等人

[5]

提出了一种考虑多重 Web 服务关系的概率主题模型

MR-LDA, 其可对 Web 服务之间相互组合的关系以及 Web 服务之间共享标签的关系进行建模.Cao 等人

[6]

通过

注意力机制将 BiLSTM 局部的隐状态向量和全局的 LDA 主题向量结合起来,提出一种基于主题注意力机制 Bi-

LSTM 的 Web 服务分类方法.但是主题模型通常是基于大量的已知观测样本来推测隐含的后验主题分布概率,

需要大量的辅助信息.为了进一步利用有限的特征信息挖掘出 Web 服务之间的隐含关系,越来越多的深度学习

方法被引入到了服务分类领域.Ye 等人

[1]

将 Web 服务描述文档中的所有离散特征结合起来,利用 Wide & Bi-

LSTM 模型对 Web 服务类别进行预测.Chen 等人

[7]

利用 LSA 模型对移动应用内容文本进行全局主题建模,再通

过 BiLSTM 模型对内容文本进行局部隐藏表征,提出一种主题注意力机制增强的移动应用分类方法.但是这些

深度学习的方法在耗费了大量计算资源的前提下,对服务分类准确度的提升并不明显.总的来说,上述的方法与

技术虽然提高了 Web 服务分类的精度,但普遍存在以下两个问题.

(1) 尽管考虑到了 Web 服务描述文档通常比较短、语料有限等问题,并提出挖掘描述文档中词语的语序

和上下文信息或融合标签等辅助信息的方法,更好地实现了短文本建模,但是这些方法利用的离散特

征关联性一般,且始终没有较好地解决文档语义稀疏的问题;

(2) 这些方法基本都依赖于文本描述信息和标签等属性信息,而未考虑 Web 服务之间的结构交互关系.在

实际情况中,Web 服务之间存在着丰富的对象和链接.例如:在 ProgrammbleWe b 数据集中,存在两个

Mashup(200 Towns 和#haiku), 它们都属于 Photos 类,然而二者的标签和主题描述都不相似,因此很难

将二者归为一类.但是这两个 Mash up 在结构上都调用了同一个名为 Twitter 的 API. 由此可见,结构交

互信息在分类任务中起着相当重要的作用.

网络表征学习(network representation learning,简称 NRL)是最近提出的通过学习网络节点连续、低维的潜

在特征来解决稀疏性问题的一种重要方法.这些特征涵盖了网络的全局结构,并可以被提取到后续的机器学习

任务中.其中,将 Deepwalk

[8]

算法应用到网络中提取特征并进行表征,成为一种常用的方法.它通常是先通过短

随机游走得到节点序列,然后输入到 SkipGram 模型中,得到最终的嵌入向量.直观地说,邻近的节点往往具有相

似的上下文(序列),因此具有彼此相似的嵌入.这一基本思想在后来的若干方面得到了扩展

[9,10]

.近年来,Yang 等

人

[11]

证明了 Deepwa l k 等价于邻接矩阵 M 的因式分解,并提出了一种通过分解文本关联矩阵结合节点文本特征

of 17

免费下载

软件学报计算机技术

关注

评论