面向维基百科服务计算领域的演化知识树被引量：3

Evolution Knowledge Tree for Services Computing Domain in Wikipedia

导出

摘要针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显. Because knowledge tree hotspots are not prominent,knowledge classification is not accurate,and the structure keeps evolving,an extensional algorithm of Chinese segmentation based on Chinese Wikipedia database＂service computing＂was proposed to extract a variety of themes knowledge and structural information.The evolution knowledge tree was constructed by improved DKHM（Document-Themes-Hotspot Model）based on the research in service computing domain,and using Gibbs sampling,the ambiguity of entry was eliminated.The experiments results showed that the accuracy of DKHM clustering is higher than that of the Bayes algorithm,and the matching rate reach60% by clustering to find hotspot.Thus,the evolution knowledge tree is more reasonable than the original Wikipedia knowledge tree structure and the hotspot trend is more obvious.

作者赵一何克清陈荆亮黄贻望黄颖

机构地区武汉大学软件工程国家重点实验室武汉大学计算机学院

出处《武汉大学学报（理学版）》 CAS CSCD 北大核心 2015年第4期331-338,共8页 Journal of Wuhan University:Natural Science Edition

基金国家重点基础研究发展计划(973)(2014CB340404)资助项目

关键词文档-主题-热点 GIBBS抽样演化知识树维基百科热点 DKHM（document-themes-hotspots model） Gibbs sample evolution of knowledge tree Wikipedia hotspot

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1金芝,何克清,王青.软件需求工程:部分研究工作进展[J].中国计算机学会通讯,2007,3(11):25-34.
2徐燕,王斌,李锦涛,孙春明.知识增益：文本分类中一种新的特征选择方法[J].中文信息学报,2008,22(1):44-50. 被引量：6
3史天艺,李明禄.基于维基百科的自动词义消歧方法[J].计算机工程,2009,35(18):62-64. 被引量：12
4涂新辉,张红春,周琨峰,何婷婷.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115. 被引量：24
5Segaran T.Programming Collective Intelligence:Building Smart Web2.0 Applications[M].New York:O’Reilly Media,2007.
6Platzer C,Rosenberg F,Dustdar S.Web service clustering using multidimensional angles as proximity measures[J].ACM Transactions on Internet Technology,2009,9(3):1-26.
7欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究[J].计算机工程与应用,2000,36(8):80-82. 被引量：20
8Yu Q,Rege M.On service community learning:A coclustering approach[C]//Proc of IEEE Int Conf on Web Services.Piscataway:IEEE,2010:283-290.
9Liu J X,He K Q,Wang J,et al.A clustering method for Web service discovery[C]//Proc of IEEE Int Conf on Services Computing.Piscataway:IEEE,2011:729-730.
10陈江锋,于建军.基于主题模型的结构化Web服务发现机制[J].北京航空航天大学学报,2008,34(6):734-738. 被引量：7

二级参考文献54

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
2尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
3Galley M, McKeown K, Improving Word Sense Disambiguation in Lexical Chaining[C]//Proc. of the 18th International Joint Conference on Artificial Intelligence. Acapulco, Mexico: [s. n.], 2003: 1486-1488.
4Yarowsky D. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods[C]//Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, Massachusetts, USA: [s. n.], 1995: 189-196.
5Gey F C. Inferring Probability of Relevance Using the Method of Logistic Regression[C]//Proc. of the 17th International Conference of the ACM-SIGIR'94. [S. l.]: Springer-Verlag, 1994: 222-231.
6Remy M. Wikipedia: The Free Encyclopedia[J]. Online Information Review, 2002, 26(6): 434-435.
7Denoyer L, Gallinari E The Wikipedia XML Corpus[J]. SIGIR Forum, 2006, 40(1): 64-69.
8邝砾,邓水光,李莹,吴健,吴朝晖.使用倒排索引优化面向组合的语义服务发现[J].软件学报,2007,18(8):1911-1921. 被引量：24
9Michael Strube,Simon Paolo Ponzetto.WikiRelate!Computing semantic relatedness using Wikipedia[C] //Proceedings of the 21rd national conference onArtificial intelligence,2006:1419-1424.
10Simone Paolo Ponzetto,Michael Strube.KnowledgeDerived From Wikipedia For Computing SemanticRelatedness[J].Journal of Artificial IntelligenceResearch,2007,30:181-212.

共引文献124

1刘建晓,王健,张秀伟,刘峰,李小霞.一种基于RDB中自身连接的Web服务聚类方法[J].计算机研究与发展,2013,50(S1):205-210. 被引量：4
2张建平,郝矿荣,施恒斌,马利.基于生物学的智能分析统计软件的开发[J].计算机时代,2005(3):14-15.
3邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
4王坚,赵恒永.专业搜索引擎中文分词算法的实现与研究[J].福建电脑,2005,21(7):55-55. 被引量：3
5王坚,赵恒永.专业搜索引擎的实现与研究——中文分词算法[J].电子科学技术评论,2005(3):77-79. 被引量：4
6文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
9钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现[J].计算机应用研究,2006,23(12):260-262. 被引量：9
10王硕,尤枫,山岚,赵恒永.一种适用于专业搜索引擎的中文分词系统研究[J].计算机工程与应用,2008,44(19):142-145. 被引量：4

同被引文献26

1惠孛,吴跃.基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J].计算机应用,2009,29(3):903-904. 被引量：3
2钟将,刘杰.一种基于文本分类的知识树自动构建方法[J].计算机应用研究,2010,27(2):475-478. 被引量：4
3杨超,冯时,王大玲,杨楠,于戈.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(4):691-695. 被引量：68
4丁建立,慈祥,黄剑雄.网络评论倾向性分析[J].计算机应用,2010,30(11):2937-2940. 被引量：13
5刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
6王振宇,吴泽衡,胡方涛.基于HowNet和PMI的词语情感极性计算[J].计算机工程,2012,38(15):187-189. 被引量：31
7吴扬,蒋东兴,付小龙,刘启新.基于维度模型的知识管理系统[J].计算机工程,2013,39(8):299-302. 被引量：2
8李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597. 被引量：23
9包振强,王宁生.基于知识树的组织知识管理初探[J].科研管理,2002,23(1):58-62. 被引量：30
10赵一,李昭,陈鹏,何泾沙,何克清.一种面向领域的Web服务语义聚类方法[J].小型微型计算机系统,2019,40(1):81-88. 被引量：5

引证文献3

1赵一,何克清,李昭,黄贻望.微博演化网络的负信息分类方法[J].计算机科学与探索,2017,11(1):91-98. 被引量：13
2高全力,陈铭,高岭,孙俊辉.基于虚拟现实技术的知识树系统仿真设计与实现[J].西安工程大学学报,2021,35(3):93-99. 被引量：5
3赵一,陈震.基于深度学习的智能分类垃圾箱设计方法[J].科技风,2021(32):1-3. 被引量：4

二级引证文献22

1杨捷,师智斌,刘忠宝.大数据分析下终端用户信息快速获取仿真研究[J].计算机仿真,2018,35(2):441-445. 被引量：2
2曾劲松,饶云波.大数据库中信息传输快速性管理仿真[J].计算机仿真,2018,35(4):118-121. 被引量：3
3孙竹梅,华薇娜,汪志兵.微信公众号的健康信息采纳预测研究——基于信息特征和支持向量机[J].情报理论与实践,2018,41(7):72-77. 被引量：20
4马亚玲.云环境下多载体图书信息自动分类方法仿真[J].计算机仿真,2018,35(11):285-288. 被引量：3
5孙竹梅,汪志兵.基于信息特征的微博健康信息采纳研究[J].情报理论与实践,2019,42(3):146-152. 被引量：17
6王健.文档数据库结构信息分类筛查方法仿真[J].计算机仿真,2019,36(5):417-420. 被引量：3
7段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
8黄玲.移动端网络产品销售推送信息自动分类仿真[J].计算机仿真,2019,36(9):393-396. 被引量：2
9孙嘉,陈智勇.校园中微博演化网络动画负信息分类方法仿真[J].计算机仿真,2020,37(1):179-182. 被引量：1
10康美林,邓卉.基于VR技术的湘瓷工艺仿真系统设计与实现[J].电子产品世界,2021,28(10):51-54.

1祖弦,谢飞.LDA主题模型研究综述[J].合肥师范学院学报,2015,33(6):55-58. 被引量：15
2殷冬琴.基于关系代数的权限控制模型[J].苏州大学学报（工科版）,2009,29(6):66-68.
3CFan爆料王[J].电脑爱好者,2008,0(8):115-115.
4舒畅.信息高速公路与中国特色的信息资源建设[J].娄底师专学报,1997(4):49-52.
5李海,哲华.瞄准Web,大步向前[J].个人电脑,1997,3(2):45-46.
6高胜利.改进的朴素贝叶斯聚类Web文本分类挖掘技术[J].廊坊师范学院学报（自然科学版）,2012,12(3):32-33. 被引量：1
7郑跃斌,林耀森,黄锦辉.一种中文数据库查询语言的设计思想及其实现方法[J].计算机工程与应用,1997,33(2):3-6. 被引量：2
8朱德刚.一个贝叶斯聚类方法及应用[J].数学的实践与认识,2013,43(14):238-242. 被引量：1
9流行密码：13169[J].数字生活,2009(5):19-19.
10梁艳春,王在申.人工神经网络BP算法密集型数据的预处理[J].吉林大学自然科学学报,1995(3):19-22. 被引量：15

武汉大学学报（理学版）

2015年第4期

浏览历史

内容加载中请稍等...

面向维基百科服务计算领域的演化知识树被引量：3

参考文献12

二级参考文献54

共引文献124

同被引文献26

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

面向维基百科服务计算领域的演化知识树 被引量：3

参考文献12

二级参考文献54

共引文献124

同被引文献26

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

面向维基百科服务计算领域的演化知识树被引量：3