基于搜索引擎的词汇语义相似度计算方法被引量：21

Measuring Semantic Similarity between Words Using Web Search Engines

下载PDF

导出

摘要词汇语义相似度的计算在网页浏览和查询推荐等网络相关工作中起着重要的作用。传统的基于分类的方法不能处理持续出现的新词。由于网络数据中隐藏着大量的噪音和冗余,鲁棒性和准确性仍然是一个挑战,因此提出了一种基于搜索引擎的词汇语义相似度计算方法。语义片段和检索结果的页数被用来去除词汇语义相似度计算过程中的噪音和冗余。此外,还提出了一种方法来整合查询结果页数、语义片段和显示的搜索结果的数量,该方法不需要任何先验知识与本体。实验结果显示,所提出的方法在Rubenstein-Goodenough测试集的相关系数为0.851,优于现有的基于网络的词汇语义相似度计算方法,同时在搜索引擎的查询扩展任务中具有较为良好的应用效果。 Semantic similarity measures play important roles in many Web-related tasks such as Web browsing and query suggestion.Because taxonomy-based methods cannot deal with continually emerging words,recently Web-based methods have been proposed to solve this problem.Because of the noise and redundancy hidden in the Web data,robustness and accuracy are still challenges.We proposed a method integrating page counts and snippets returned by Web search engines.Then,the semantic snippets and the number of search results were used to remove noise and redundancy in the Web snippets.After that,a method integrating page counts,semantics snippets and the number of already displayed search results was proposed.The proposed method does not need any human annotated knowledge,and can be applied Web-related tasks easily.A correlation coefficient of 0.851 against Rubenstein-Goodenough benchmark dataset shows that the proposed method outperforms the existing Web-based methods by a wide margin.Moreover,the proposed semantic similarity measure significantly improves the quality of query suggestion against some page counts based methods.

作者陈海燕

机构地区华东政法大学计算机科学与技术系

出处《计算机科学》 CSCD 北大核心 2015年第1期261-267,共7页 Computer Science

基金国家社会科学基金项目(06BFX051) 上海高校选拔培养优秀青年教师科研专项基金(hzf05046)资助

关键词语义相似度信息检索查询建议网络检索 Semantic similarity Information retrieval Query suggestion Web search

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献29

1Resnik P. Semantic similarity in a taxonomy an information based measure and its application to problems of ambiguity in natural language[J]. Journal of Artificial Intelligence Research1999,11:95-130.
2Luo X, Hu Q, Xu W, et al. Discovery of textual knowledge flow based on the management of knowledge maps[J]. Concurrency and Computation: Practice and Experience, 2008,20 : 1791-1806.
3Luo X, Xu Z, Li Q,et al. Generation of similarity knowledge flow for intelligent browsing based on semantic link networks [J]. Concurrency and Computation: Practice and Experience 2009,21 : 2018-2032.
4Luo X,Yu J,Li Q,et al. Building web knowledge flows based on interactive computing with semantics[J]. New Generation Com- puting,2010,28:113 -120.
5Zhang S, Luo X, Chen J, et al. Measuring knowledge delivery quantity of associated knowledge flow[C]//Proceedings of the Fourth International Conference on Semantics, Knowledge and Grid. IEEE Computer Society: Washington, DC, 2008 : 117-124.
6Smeulders A, Worring M, Santini S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000,22 ( 12 ) : 1349- 1380.
7Srihari R, Zhang Z, Rao A. Intelligent indexing and semantic re- trieval of multimodal documents [ J]. Information Retrieval, 2000,2:245-275.
8Makkonen J, Ahonen-Myka H, Salmenkivi M. Simple semantics in topic detection and tracking[J]. Information Retrieval, 2004, 7:347-368.
9Green S J. Building hypertext links by computing semantic simi- larity[J]. IEEE Transactions on Knowledge and Data Enginee- ring, 1999,11 (5) : 713-730.
10Vojnovic M, Cruise J, Gunawardena D, et al. Ranking and sug- gesting popular items[J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21 (8) : 1133-1146.

同被引文献209

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2张玲.基于Web数据库在线考试系统的设计研究探讨[J].自动化与仪器仪表,2016(5):120-121. 被引量：15
3张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
6李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
7董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：97
8夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
9闫英杰,林鸿飞,杨志豪,赵晶.关键词密度分布法在偏重摘要中的应用研究[J].计算机工程,2007,33(16):156-158. 被引量：1
10Chen M Y, Chu H C, Chen Y M. Developing a Semantic-Enable Information Retrieval Mechanism [J]. Expert Systems with Application, 2010, 37(1): 322-340.

引证文献21

1冶忠林,贾真,杨燕,尹红风.基于语义扩展的句子相似度算法[J].山西大学学报（自然科学版）,2015,38(3):399-405. 被引量：5
2赵彦锋,周晓红.领域本体的语义相似度算法研究[J].软件导刊,2015,14(12):49-52. 被引量：2
3范雪雪,王志荣,徐晤,梁银,马小虎.基于医学本体的术语相似度算法研究[J].现代图书情报技术,2015(12):57-64. 被引量：3
4陈晓伟,曹逸峰,尚鸿斌,付谦,包妍苹,沈璟.基于文本向量化方法构建IT运维服务台事中处置参考模型[J].计算机系统应用,2016,25(10):273-277.
5张硕望,欧阳纯萍,阳小华,刘永彬,刘志明.融合《知网》和搜索引擎的词汇语义相似度计算[J].计算机应用,2017,37(4):1056-1060. 被引量：16
6李战军,闫绍惠.基于直觉模糊集的术语相似度方法研究[J].河北软件职业技术学院学报,2017,19(2):39-41.
7陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：71
8李芳.高相似度英语词语自主选取系统设计[J].现代电子技术,2017,40(23):147-150. 被引量：2
9吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化,2018(4):90-94. 被引量：6
10陈倩,唐旭清.基于核函数的搜索引擎研究[J].现代信息科技,2018,2(9):77-79.

二级引证文献174

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3范午攸.查新检索式逻辑运算符选择系统[J].知识管理论坛,2024(1):57-64.
4周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
5赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
6吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
7杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：6
8卢利农,任珩,王小春,史延武.基于多级工作流的在线查新服务平台建设实践[J].科技促进发展,2021,17(2):268-275. 被引量：1
9谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
10裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2

1孙茹.搜索引擎的智能化发展方向[J].科技传播,2015,7(1). 被引量：1
2张乃洲.基于时间点击图挖掘的查询建议方法[J].计算机工程,2015,41(5):191-196. 被引量：4
3皮慧娟.基于马尔科夫模型的词汇语义相似度计算[J].沈阳大学学报,2010,22(1):5-7. 被引量：3
4任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20
5吴海鹏,饶若楠.一种基于服务本体及其词汇语义的Web服务匹配算法[J].计算机应用与软件,2008,25(5):131-133. 被引量：2
6江雪,孙乐.用户查询意图切分的研究[J].计算机学报,2013,36(3):664-670. 被引量：11
7孙琳,王忠民,李鑫.一种用于Web检索交互的相关主题查询建议方法[J].计算机应用,2006,26(S2):169-171.
8刘木强,杨卫东.基于实体的文本数据与XML文档的匹配技术研究[J].小型微型计算机系统,2015,36(11):2473-2478.
9曹晓龙,宋威,梁久祯.基于TF-IQF模型和图聚类的个性化搜索研究[J].计算机工程与科学,2011,33(12):116-120.
10吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218

计算机科学

2015年第1期

浏览历史

内容加载中请稍等...

基于搜索引擎的词汇语义相似度计算方法被引量：21

参考文献29

同被引文献209

引证文献21

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的词汇语义相似度计算方法 被引量：21

参考文献29

同被引文献209

引证文献21

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

基于搜索引擎的词汇语义相似度计算方法被引量：21