WordNet和词向量相结合的句子检索方法被引量：3

WordNet and Word Embedding Based Sentence Retrieval Method

下载PDF

导出

摘要针对当前句子检索方法中因数据稀疏而存在的"词不匹配"问题,提出了一种Word Net和词向量相结合的句子检索方法。首先在Word Net语义关系图中应用个性化PageRank算法计算与查询项最相关的同义词集合,实现查询项扩展,从而在一定程度上解决了查询项数据稀疏的问题;然后利用在大规模语料中训练神经网络语言模型获取的词向量对查询项和句子进行表示;最后引入WMD(word mover's distance)计算查询项与句子的语义相似度,从而利用语义信息进一步降低"词不匹配"问题带来的影响,将句子按相似度值从高到低排序作为句子检索结果。文章方法在TREC2003和TREC2004会议的项目中进行评测,MAP和R-Precision值相较于次优结果分别提高了13.29%和13.54%。 A WordNet and Word Embedding based sentence retrieval method is proposed in this paper to solve the vocabulary mismatch problem rooted in the sparsity of sentences and queries.Firstly,we run the personalized PageRank algorithm over the graph representation of WordNet concepts and relations to obtain concepts related to the queries,which could partially settle the sparsity of the queries.Secondly,the word embeddings that represent semantics of the query and sentence are gained through training in large-scale corpus with the Continous Skip-gram Model.Finally,the ranked list of retrieval results is achieved by applying Word Mover's Distance(WMD) to calculate semantic similarity of query and sentence,which can further handle the vocabulary mismatch problem.The evaluation on TREC2003 and TREC2004 reveals that the proposed method is significantly superior to the baseline sentence retrieval method.The MAP and R-Precision are 13.29% and13.54% higher than the second best result.

作者刘欣席耀一王波魏晗

机构地区信息工程大学解放军外国语学院

出处《信息工程大学学报》 2017年第4期486-491,共6页 Journal of Information Engineering University

基金国家社会科学基金资助项目(14BXW028)

关键词 WORDNET 查询项扩展词向量语义相似度句子检索 WordNet query expansion word embedding semantic similarity sentence retrieval

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1吴友政,赵军,徐波.基于主题语言模型的句子检索算法[J].计算机研究与发展,2007,44(2):288-295. 被引量：8

二级参考文献14

1A Ittycheriah,S Roukos.IBM's statistical question answering system-TREC 11[C].The 11th Text REtrieval Conference,Gaithersburg,Maryland,USA,2002
2H Yang,T S Chua.The integration of lexical knowledge and external resources for question answering[C].The 11th Text REtrieval Conference,Maryland,USA,2002
3A C Emmanuel,W B Croft,V Murdock.Answer passage retrieval for question answering[C].The 27th Annual Int'l Conf on Research and Development in Information Retrieval,Sheffield,UK,2004
4V Murdock,W B Croft.Simple translation models for sentence retrieval in factoid question answering[C].The SIGIR 2004 Workshop on Information Retrieval for Question Answering,Sheffield,UK,2004
5W Bruce Croft,John Lafferty.Language Modeling for Information Retrieval[M].Amsterdam,Netherlands:Kluwer Academic Publishers,2003
6C Zhai,J Lafferty.A study of smoothing techniques for language modeling applied to ad hoc information retrieval[C].The ACM SIGIR Conf on Research and Development in Information Retrieval,New Orleans,USA,2001
7A Berger,R Caruana,D Cohn,et al.Briding the lexical chasm:Statistical approaches to answer-finding[C].The 23rd Annual Conf on Research and Development in Information Retrieval,Athens,Greece,2000
8T Hofmann.Probabilistic latent semantic indexing[C].The 22nd Annual Int'l SIGIR Conf on Research and Development in Information Retrieval,Berkeley,USA,1999
9J Ponte,W Bruce Croft.A language modeling approach to information retrieval[C].The 1998 ACM SIGIR,Melbourne,Australia,1998
10V Lavrenko,W B Croft.Relevance-based language models[C].The 2001 ACM SIGIR Conf on Research and Development in Information Retrieval,New Orleans,USA,2001

共引文献7

1黄莉.浅析汉语问答系统中的句子检索方法[J].价值工程,2010,29(14):165-166.
2张志昌,张宇,刘挺,李生.基于话题和修辞识别的阅读理解why型问题回答[J].计算机研究与发展,2011,48(2):216-223. 被引量：9
3王智强,李茹,梁吉业,张旭华,武娟,苏娜.基于汉语篇章框架语义分析的阅读理解问答研究[J].计算机学报,2016,39(4):795-807. 被引量：18
4李国臣,刘姝林,杨陟卓,李茹,张虎,钱揖丽.基于框架语义的高考语文阅读理解答案句抽取[J].中文信息学报,2016,30(6):164-172. 被引量：8
5吴静,周德斌.浅析问答系统中的句子检索模块[J].经营管理者,2009(13):377-377. 被引量：1
6邓松.面向旅游人文信息集成的Web数据源选择[J].山东大学学报（理学版）,2016,51(3):70-76.
7段苏凌.基于读者意图的图书馆智能问答方法[J].图书馆研究与工作,2023(5):44-49. 被引量：1

同被引文献10

1王知津,郑红军.基于集合理论的信息检索模型[J].情报科学,2004,22(11):1288-1291. 被引量：6
2马晖男,吴江宁,潘东华.一种基于同义词词典的模糊查询扩展方法[J].大连理工大学学报,2007,47(3):439-443. 被引量：17
3李亚楠,王斌,李锦涛.搜索引擎查询推荐技术综述[J].中文信息学报,2010,24(6):75-84. 被引量：29
4邹益民,张智雄.网络科技信息情报价值评价方法综述[J].情报杂志,2014,33(5):25-30. 被引量：8
5冯瑶,冯锡炜.面向教学资源查询的语义相似度和相关度算法[J].计算机应用与软件,2016,33(10):275-278. 被引量：4
6王小梦,郭爽.数字教学资源的语义标记系统设计研究[J].中国教育信息化,2017,23(13):40-44. 被引量：1
7于超,王璐,程道文.基于本体的教育资源语义检索系统研究[J].吉林大学学报（信息科学版）,2018,36(2):207-212. 被引量：34
8李卫疆,王胜,余正涛.基于深度学习的概念语义空间查询扩展研究[J].软件导刊,2018,17(5):26-30. 被引量：5
9黄洋,宋俊德,宋美娜,张笑燕.基于本体与SSH架构的异构数据集成框架的研究[J].软件,2014,35(11):36-41. 被引量：11
10崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599. 被引量：61

引证文献3

1陈淑巧,邱东,江海欢.一种基于词向量的模糊查询扩展方法[J].四川师范大学学报（自然科学版）,2019,42(1):92-97. 被引量：1
2黄以宝.基于本体和Jena模块的教学资源语义系统设计研究[J].软件,2019,40(4):186-189. 被引量：3
3丁恒,李映萱.基于深度学习的问答平台查询推荐研究[J].数据分析与知识发现,2020,4(10):37-46.

二级引证文献4

1刘刚.WINDOWS下提取汉字字模[J].电脑编程技巧与维护,2000(5):8-10.
2吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：8
3杜鹏举.基于计算机的语言生态多样性评估模型构建[J].自动化与仪器仪表,2021(3):33-36.
4徐佳丽.基于大数据的计算机课程教学资源整合系统设计[J].信息与电脑,2022,34(15):122-124. 被引量：4

1顾伟.论声像档案检索方法[J].档案与建设,2017(11):36-38. 被引量：10
2刘超超.大数据环境下中文词库动态更新系统模型研究[J].济宁学院学报,2017,38(5):116-119.
3张芬,孔祥维,宁斐,贾则.基于网络搜索量的扩展属性图像检索[J].计算机工程,2017,43(9):276-280. 被引量：3
4曲开顺.美国CHEMTREC运输应急响应中心的做法及启示[J].安全、健康和环境,2017,17(8):10-12.
5霍慧娜.热点新闻事件中网络流行语的影响[J].西部广播电视,2017,38(21):52-53. 被引量：2
6闫峰杰.浅析网络语言在广播电视媒体中的应用[J].西藏发展论坛,2017(3):68-72.
7白菊,何聚厚.应用于问答系统的Lucene相似度检索算法改进[J].计算机技术与发展,2017,27(11):79-82.
8戴尔工作站20年持续创新[J].新电脑,2017,0(10):19-19.
9刘乐元,赵毅,陈靓影.基于卷积神经网络的图书页面检索方法[J].华中科技大学学报（自然科学版）,2017,45(11):22-28. 被引量：2
10周海,孔云波,寇程,刘毅锟,耀临海.基于Whoosh的空间数据全文检索方法[J].地理空间信息,2017,15(11):18-20. 被引量：1

信息工程大学学报

2017年第4期

浏览历史

内容加载中请稍等...

WordNet和词向量相结合的句子检索方法被引量：3

参考文献1

二级参考文献14

共引文献7

同被引文献10

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

WordNet和词向量相结合的句子检索方法 被引量：3

参考文献1

二级参考文献14

共引文献7

同被引文献10

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

WordNet和词向量相结合的句子检索方法被引量：3