摘要
在Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。
A retrieve algorithm that incorporates the semantic information of the words into traditional retrieve function of Lucene is proposed.The proposed method improves the important components of existing retrieve similarity functions with semantic information,and selects the appropriate measure of semantic similarity to compute the semantic similarity between the query words and text corpus by using the external dictionary Wordnet.With the semantic similarity,the algorithm implements semantic information retrieve and can sort the retrieved text documents according to the semantic similarity between query words and text documents.The experimental results show that the proposed method can improve the precision of document retrieval effectively.
出处
《中山大学学报(自然科学版)》
CAS
CSCD
北大核心
2011年第2期11-15,共5页
Acta Scientiarum Naturalium Universitatis Sunyatseni
基金
国家自然科学基金资助项目(60573097
60773198
60703111)
广东省自然科学基金资助项目(05200302
06104916)
广州市科技计划资助项目(2007Z3-D3071)
高等学校博士学科点专项科研基金资助项目(20050558017)
新世纪优秀人才支持计划资助项目(NCET-06-0727)
关键词
语义
相似度
信息检索
算法
semantic
similarity
information retrieve
algorithm