一种面向领域的Web服务语义聚类方法被引量：5

Web Service Semantic Clustering Method Oriented Domain

下载PDF

导出

摘要目前,互联网中发布的Web服务大都通过自然语言进行描述,这种非结构化的描述方式为机器进行自动分析与处理带来了极大的困难.如何提高服务发现的效率和精确率,已成为服务计算领域的研究热点之一.服务聚类是服务发现的重要支撑技术,通过将语义相似的服务加以聚类和组织,有助于改进服务发现的效果.当前的服务聚类技术主要采用LDA(潜式狄里克雷分布)和K-means等模型在同一领域下进行工作,利用这些方法进行服务聚类时还存在一定的局限性,例如,未充分利用词汇间的语义关系进行降维,从而导致服务发现的效果不够理想.针对该问题,本文使用神经网络模型(word2vec模型)获得服务描述中的同义词表并生成领域特征词集,来最大限度的降低服务特征向量维度;在此基础上,提出S-LDA(Semantic Latent Dirichlet Allocation)模型对同一领域的服务进行聚类,由此构建了一个面向领域的Web服务聚类框架(Domain Semantic aided Web Service Clustering,DSWSC).在ProgrammableWeb网站上发布的服务数据集开展的实验表明,与LDA和K-means等方法相比,本文方法在熵、聚类纯度和F指标上均取得了明显效果,有助于提高服务搜索的准确率. Currently,most of the Web services published in the Internet are described by natural language,this kind of unstructured descriptions brings difficulties in automatic analysis and processing. Howto improve the efficiency and accuracy of service discovery has become a hot topic in the field of service computing. Service clustering is an important fundamental technology for service discovery.It is helpful to improve the effectiveness of service discovery by clustering and organizing semantic similar services. The current service clustering technology mainly adopts LDA( Latent Dirichlet Allocation) and K-means models. There is still some limitations when using these methods for service clustering,e. g.,they are unable to reduce dimension by using lexical semantic relations. To solve this problem,this paper firstly creates synonyms for service descriptions by the neural network model( word2 vec model),and then uses the decision tree classifier to classify service domains. Afterwards,an improved S-LDA( Semantic Latent Dirichlet Allocation) model is proposed to cluster semantic similar services. In this way,a domain-oriented service semantic clustering method( DSWSC) is proposed. Experiments conducted on the service data set published on the Programming Web showthat our approach outperforms LDA and K-means methods in entropy,clustering purity and F-measure,which can be helpful to improve the accuracy in service discovery.

作者赵一李昭陈鹏何泾沙何克清 ZHAO Yi;LI Zhao;CHEN Peng;HE Jing-sha;HE Ke-qing(College of Computer and Information,China Three Gorges University,Yichang 443002,China;School of Computer Science,Wuhan University,Wuhan 430072,China)

机构地区武汉大学计算机学院三峡大学计算机与信息学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第1期81-88,共8页 Journal of Chinese Computer Systems

基金国家重点研发计划项目(2016YFC0802500 2016YFB0800403)资助国家自然科学基金项目(61562073)资助三峡大学人才专项经费项目(8000303)资助

关键词语义潜式狄里克雷分布 Word2vec web服务聚类 semantic latent dirichlet allocation Word2vec Web services clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1陈德伟,许斌,蔡月茹,李涓子.服务部署与发布绑定的基于P2P网络的Web服务发现机制[J].计算机学报,2005,28(4):615-626. 被引量：46
2骆云辉,刘茜萍.基于相似类的用户偏好服务选择方法[J].南京邮电大学学报（自然科学版）,2014,34(1):116-122. 被引量：2
3李征,王健,张能,李昭,何成万,何克清.一种面向主题的领域服务聚类方法[J].计算机研究与发展,2014,51(2):408-419. 被引量：17
4田刚,何克清,王健,孙承爱,徐建建.面向领域标签辅助的服务聚类方法[J].电子学报,2015,43(7):1266-1274. 被引量：30
5刘建晓,王健,张秀伟,刘峰,李小霞.一种基于RDB中自身连接的Web服务聚类方法[J].计算机研究与发展,2013,50(S1):205-210. 被引量：4
6盛振华,吴羽,江锦华,寿黎但,陈刚.InfoSigs:一种面向Web对象的细粒度聚类算法[J].计算机研究与发展,2010,47(5):796-803. 被引量：4
7黎英.基于图论的语义Web服务聚类方法[J].计算机工程,2011,37(22):51-52. 被引量：2
8刘振鹿,王大玲,冯时,张一飞,方东昊.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65. 被引量：19
9刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11

二级参考文献73

1刘云峰,齐欢,代建民,王小平.中文信息的潜在语义分析[J].华南理工大学学报（自然科学版）,2004,32(z1):107-111. 被引量：5
2赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
3Baeza-Yates R A,Ribeiro-Neto B.Modern Information Retrieval[M].Reading,MA:Addison-Wesley,1999.
4Aas K,Eikvil L.Text Categorisation:A Survey[M].Norwegian:ACM Computing Center,1999.
5Rui Xu,Wunsch D.Survey of clustering algorithms[J].IEEE Trans on Neural Networks,2005,16(3):645-678.
6Chowdhury A,Frieder O,Grossman D,et al.Collection statistics for fast duplicate document detection[J].ACM Trans on Information System,2002,20(2):171-191.
7Broder A Z,Glassman S C,Manasse M S,et al.Syntactic clustering of the Web[J].Computer Networks,1997,29(8-13):1157-1166.
8Theobald M,Siddharth J,Paepcke A.SpotSigs:Robust and efficient near duplicate detection in large Web collections[C] //Proc of the 31st SIGIR Conf on Research and Development in Information Retrieval.New York:ACM,2008:563-570.
9Hung Chim,Deng Xiaotie.A new suffix tree similarity measure for document clustering[C] //Proc of the 16th Int Conf on World Wide Web.New York:ACM,2007:121-130.
10Jain A,Murty M,Flynn P.Data clustering:A review[J].ACM Computer Surveys,1999,31(3):264-323.

共引文献118

1崔晓红,刘兴伟,姚书怀.语义Web服务匹配算法的研究[J].西华大学学报（自然科学版）,2006,25(4):18-20. 被引量：4
2刘兴伟,崔晓红.UDDI的语义扩展及分布式实现[J].微电子学与计算机,2006,23(9):179-181. 被引量：1
3刘振鹏,伊开,宋晓静,张思亮.基于对等体组的Web服务发现机制[J].微电子学与计算机,2006,23(9):197-199.
4史波,王红.基于P2P网络之上移动agent的Web服务发现机制[J].信息技术与信息化,2006(5):107-109.
5解丹,赵臻,蔡晓鸿.一种基于语义的Web服务发现机制[J].中国科技信息,2007(1):109-110.
6刘兴伟,姚书怀.基于层次聚类的语义Web服务发现算法[J].计算机应用与软件,2007,24(7):173-175. 被引量：6
7谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007,25(7):1046-1051. 被引量：50
8曾亮,齐欢,王小平,王俊锋.一种轻量级Web服务组合研究与应用[J].计算机工程,2007,33(14):267-269. 被引量：2
9韩毅.P2P网络信息检索的研究进展[J].现代图书情报技术,2007(7):36-40. 被引量：4
10柯锋,李瑞轩,宋伟,於光灿.一种P2P环境中基于语义的Web服务组合方法[J].计算机工程与科学,2007,29(8):15-18. 被引量：1

同被引文献51

1姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
2孙萍,蒋昌俊.利用服务聚类优化面向过程模型的语义Web服务发现[J].计算机学报,2008,31(8):1340-1353. 被引量：63
3刘振鹿,王大玲,冯时,张一飞,方东昊.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65. 被引量：19
4孙锐,李明,高曙明.基于体重构的过渡特征抑制算法[J].计算机集成制造系统,2011,17(6):1149-1156. 被引量：7
5刘一松,杨玉成.基于文本聚类和概念相似度的语义Web服务发现[J].计算机科学,2013,40(11):211-214. 被引量：7
6张霞,段黎明,刘璐.保持特征的高质量三角网格简化方法[J].计算机集成制造系统,2014,20(3):486-493. 被引量：13
7谭营,郑少秋.烟花算法研究进展[J].智能系统学报,2014,9(5):515-528. 被引量：114
8李明.工程仿真精度可信的CAD模型简化[J].计算机辅助设计与图形学学报,2015,27(8):1363-1375. 被引量：11
9田刚,何克清,王健,孙承爱,徐建建.面向领域标签辅助的服务聚类方法[J].电子学报,2015,43(7):1266-1274. 被引量：30
10闫莉莉,程刚.基于共词聚类分析的国外知识密集服务研究热点分析[J].现代情报,2015,35(8):22-27. 被引量：7

引证文献5

1简琤峰,鲁亚文,张美玉.一种基于改进烟花算法的MBD产品信息轻量化方法[J].小型微型计算机系统,2020,41(1):195-199. 被引量：1
2冉冉,徐立波,曲睿婷,夏雨.基于LDA-FCM方法的Web服务发现聚类性能分析[J].计算技术与自动化,2020,39(3):166-171. 被引量：1
3赵一,陈震.基于深度学习的智能分类垃圾箱设计方法[J].科技风,2021(32):1-3. 被引量：5
4郑禾丹,马菲菲,李林霞,刘志中.MEC环境下多维属性感知的边缘服务二次聚类方法研究[J].计算机应用研究,2022,39(11):3263-3269.
5许涛,张伟,庄欣,宿成坤,姜雨欣.基于物联网的智能垃圾箱及调度系统设计[J].计算机科学与应用,2022,12(1):211-220.

二级引证文献7

1邓乐武,黄玉璐,王浩然,于劲松.基于MBD的飞机测试工艺数字化定义方法[J].北京航空航天大学学报,2021,47(11):2181-2188. 被引量：2
2赵一,黄汉城,丘文彬,刘鑫,陆漫洁.基于改进MobileNetV3-Large算法的智能垃圾分类系统[J].电子技术与软件工程,2022(2):149-152. 被引量：3
3魏昌海,唐真.国内外智能垃圾箱发展比较研究[J].艺术科技,2022,35(1):36-38.
4何力航,黄思齐,梁海霞,杨富国.智能垃圾分类管理的“广东模式”初探[J].科技风,2022(23):53-55.
5黄志泉,徐英豪,李灿,孙立功.基于神经网络的病虫害识别系统[J].网络安全技术与应用,2023(5):46-48.
6黄雯,胡强,任志考.融合多维属性相似度的云制造服务谱聚类算法[J].计算机工程与设计,2023,44(10):2988-2996. 被引量：1
7王佳炎,毛耀增,郭兰鑫,贾富昊,姜麒,史昊东,周德强.一种基于机器视觉的多垃圾自动分类机器设计[J].机械,2024,51(8):66-71.

1陈建明,时铭慧.结合改进的SIFT算法的双目视觉测距[J].轻工学报,2018,33(5):90-96. 被引量：7
2王国仁,金福生,刘驰,王树良.面向国际化的数据科学与大数据专业课程体系建设[J].中国大学教学,2018(12):43-45. 被引量：31
3肖巧翔,曹步清,张祥平,刘建勋,李晏新闻.基于Word2Vec和LDA主题模型的Web服务聚类方法[J].中南大学学报（自然科学版）,2018,49(12):2979-2985. 被引量：11
4汪骏飞,徐晓亮,温坤,王永泉,陈花玲.基于粒子群算法的支持向量回归机优化算法在铣刀磨损量建模中的应用[J].机床与液压,2018,46(23):184-187. 被引量：1
5罗森林,毛焱颖,潘丽敏,陈倩柔,魏超.扩展语义相似情感词的文本情感分类方法[J].北京理工大学学报,2018,38(11):1156-1162. 被引量：4
6张祥平,刘建勋,肖巧翔,石敏,曹步清.基于LDA和模糊C均值的Web服务多功能聚类[J].中南大学学报（自然科学版）,2018,49(12):2986-2992. 被引量：4
7余琴琴,彭敦陆,刘丛.大规模词序列中基于频繁词集的特征短语抽取模型[J].小型微型计算机系统,2018,39(5):1027-1032. 被引量：1
8黄勇,罗文辉,张瑞舒.改进朴素贝叶斯算法在文本分类中的应用[J].科技创新与应用,2019,9(5):24-24. 被引量：10
9张琦,王昌晶,罗海梅,左正康,石海鹤,郭帆.WSDL→Radl-WS生成方法及自动转换系统[J].江西师范大学学报（自然科学版）,2018,42(3):298-303. 被引量：4
10陈纯纯,骆旭坤,杨韵芳.基于MQTT+IOT Hub的农业信息采集平台设计[J].延边大学学报（自然科学版）,2018,44(4):361-364. 被引量：5

小型微型计算机系统

2019年第1期

浏览历史

内容加载中请稍等...

一种面向领域的Web服务语义聚类方法被引量：5

参考文献9

二级参考文献73

共引文献118

同被引文献51

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向领域的Web服务语义聚类方法 被引量：5

参考文献9

二级参考文献73

共引文献118

同被引文献51

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种面向领域的Web服务语义聚类方法被引量：5