基于百度百科的词语相似度计算被引量：20

Word Similarity Measurement Based on BaiduBaike

下载PDF

导出

摘要词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题。传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库。提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度。实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理。 Research on word similarity measurement has been popular not only in natural language processing but also in other basic research. Traditional word similarity measurements use semantic lexieal or large-scale corpus. We first discussed the background of the applications of word similarity measurement, such as information retrieval, information extraction, text classification, example-based machine translation, etc. Then two strategies of word similarity measure- ment were summarized：one is based on ontology or a semantic taxonomy, the other is based on large collocations of words in corpus. BaiduBaike,an online open encyclopedia, could be used not only as a corpus but also a knowledge re- souree with rich semantic information. Based on BaiduBaike with its rich semantic information and category graph, we proposed a new method to analyze and compute Chinese word similarity from four dimensions： the baike card, the eon- tent of word, the open classification of word and the correlation words. We used language-network to choose top key terms of content of word. Based on vector space mode （VSM） theory, we calculated the similarity between parts of words. We presented a new ＂multi-path searching＂ algorithm on BaiduBaike category graph. A comprehensive similarity measuring method based on the four parts was proposed. Experiment results show that the method has a good performane.

作者詹志建梁丽娜杨小平

机构地区中国人民大学信息学院北京

出处《计算机科学》 CSCD 北大核心 2013年第6期199-202,共4页 Computer Science

基金国家自然科学基金(70871115)资助

关键词词语相似度语言网络百度百科向量空间模型 Word similarity, Language network, BaiduBaike, VSM

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
2Salton G,Lesk M E.Computer evaluation of indexing and text processing[J].Journal of the ACM,1968,15(1):8-36.
3Rada R.Development and application of a metric on semantic nets[J].IEEE Transactions on System.Man and Cybernetics,1989,19(1):17-30.
4Lee J H.Information retrieval based on conceptual distance in ISA hierarchies[J].Journal of Documentation,1993,49 (2):188-207.
5Sussna M.Word sense disambiguation for free-text indexing using a massive semantic network[C]//Proceedings of the 2nd International Conference on Information and Knowledge Management (CIKM'93).Washington,DC,US,1993:67-74.
6Agirre E,Rigau G.A Proposal for word sense disambiguation using conceptual distance[C]// International Conference/Recent Advances in Natural Language Recessing RANLP.95.Tzigov Chark,Bulgaria,1995:91-98.
7刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
8李素建,张健,黄雄,白硕,刘群.Semantic Computation in a Chinese Question—Answering System[J].Journal of Computer Science & Technology,2002,17(6):933-939. 被引量：30
9Brown P.Word sense disambiguation using tactical methods[C]∥Proceedings of 29th Meeting of the Association For Computational Linguistics (ACL291).1991:210-207.
10胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002,16(4):39-44. 被引量：43

二级参考文献41

1黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
2鲁松白硕.词距离的计算方法.自然语言理解与机器翻译[M].北京:清华大学出版社,2001,7..
3俞士汶胡俊峰.唐宋诗之词汇自动分析及应用.台北中央研究院第三届汉学会议[M].,..
4Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
5Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
6Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
7Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
8Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
9Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
10Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.

共引文献432

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
7彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
8高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
9夏天,樊孝忠,刘林,骆正华.基于ALICE的汉语自然语言接口[J].北京理工大学学报,2004,24(10):885-889. 被引量：11
10李志辉.智能答疑系统中概念词典的设计与应用[J].重庆科技学院学报（社会科学版）,2005(2):87-89. 被引量：2

同被引文献169

1苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998(3):86-91. 被引量：47
2刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
4王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
5张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
6金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
7吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
8许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
9彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10
10章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17

引证文献20

1詹志建,杨小平.基于语言网络和语义信息的文本相似度计算[J].计算机工程与应用,2014,50(5):33-38. 被引量：11
2刘胜久,李天瑞,贾真,景运革.基于搜索引擎的相似度研究与应用[J].计算机科学,2014,41(4):211-214. 被引量：3
3郭远,喻志浩,周莲英.舆论智能干预中词法分析与匹配的研究与设计[J].数据通信,2014(5):7-9.
4李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177. 被引量：17
5王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
6杨启悦,余正涛,洪旭东,高盛祥,汤智文.基于维基百科的汉越词语相似度计算[J].南京理工大学学报,2016,40(4):461-466. 被引量：1
7吕亚伟,李芳,戴龙龙.基于LDA的中文词语相似度计算[J].北京化工大学学报（自然科学版）,2016,43(5):79-83. 被引量：6
8詹志建,杨小平.一种基于复杂网络的短文本语义相似度计算[J].中文信息学报,2016,30(4):71-80. 被引量：14
9康司辰,刘扬.基于语义构词的汉语词语语义相似度计算[J].中文信息学报,2017,31(1):94-101. 被引量：3
10许宇华,黄倩云.统一智能搜索处理技术的研究与应用[J].自动化与仪器仪表,2017(5):144-146. 被引量：2

二级引证文献215

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
6LIAO Yunyan,HUANG Qing,WANG Changjing,ZUO Zhengkang,LU Jiaxing.Course Intelligent Brain Model Based on Crowd Intelligence[J].Wuhan University Journal of Natural Sciences,2022,27(4):331-340.
7杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：5
8谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
9裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
10廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.

1洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
2王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
3京昱.盘古组件中的金山双向英汉词典[J].电脑爱好者,1995,0(10):28-28.
4马婷婷.中文自动分词系统概述[J].电脑知识与技术（过刊）,2010,0(33):9336-9338. 被引量：2
5黎其武.浅析惩治淫秽信息犯罪案件司法解释[J].信息网络安全,2010(6):8-10. 被引量：5
6赵雪英.基于Simulink的图像及视频边缘检测[J].辽宁大学学报（自然科学版）,2008,35(1):52-54. 被引量：1
7唐四薪,周勇,邹赛.基于词汇化随机文法模型的RNA二级结构预测[J].计算机工程与科学,2009,31(3):128-131. 被引量：4
8陈明华,殷景华,舒昌,王明江.基于正反向最大匹配分词系统的实现[J].信息技术,2009,33(6):124-127. 被引量：7
9蒲海涛,刁文,樊铭渠.物联网环境信息系统智能交互上下文模型研究[J].电力信息化,2011,9(8):61-64. 被引量：2
10王楠.一种基于K近邻的图像去噪方法[J].软件导刊,2015,14(10):155-157.

计算机科学

2013年第6期

浏览历史

内容加载中请稍等...

基于百度百科的词语相似度计算被引量：20

参考文献14

二级参考文献41

共引文献432

同被引文献169

引证文献20

二级引证文献215

相关作者

相关机构

相关主题

浏览历史

基于百度百科的词语相似度计算 被引量：20

参考文献14

二级参考文献41

共引文献432

同被引文献169

引证文献20

二级引证文献215

相关作者

相关机构

相关主题

浏览历史

基于百度百科的词语相似度计算被引量：20