一种基于聚类的语义检索算法

Clustering-based Semantic Retrieval Algorithm

下载PDF

导出

摘要潜在语义分析在进行大规模语义检索时计算效率较低、存储开销较大。针对该问题,提出一种基于聚类的潜在语义检索算法。通过文档之间的结构关系对文档进行聚类,利用簇代替文档分析潜在语义,以此减少处理文档的个数。实验结果表明,该算法能减少查询时间,且检索精确度较高。 Latent Semantic Analysis（LSA） lacks computation efficiency and has storage deficiencies when it is used in the large scale semantic retrieval.To solve this problem,this paper proposes a clustering-based semantic retrieval algorithm.This algorithm clusters the documents using their structural information,and applies the LSA process on those clusters to efficiently reduce the number of documents.Experimental results show that the algorithm can exponentially decrease the time of inquiring and get good retrieval accuracy.

作者向河林张明西李珀瀚何震瀛汪卫

机构地区复旦大学计算机科学技术学院

出处《计算机工程》 CAS CSCD 2012年第2期36-38,共3页 Computer Engineering

基金国家自然科学基金资助项目(60703093)

关键词潜在语义分析信息检索向量空间模型图聚类算法 Latent Semantic Analysis（LSA） information retrieval vector space model graph clustering algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Deerwester S, Dumais S T, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
2Hofmann T. Probabilistic Latent Semantic Indexing[C] //Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM Press, 1999.
3王卫国,徐炜民.基于潜在语义分析的个性化查询扩展模型[J].计算机工程,2010,36(21):43-45. 被引量：13
4Jeh G, Widom J. SimRank: A Measure of Structural-context Similarity[C] //Proc. of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2002.
5Yin Xiaoxin, Han Jiawei, Philip Y S. LinkClus: Efficient Clus- tering Via Heterogeneous Semantic Links[C] //Proc. of the 32nd International Conference on Very Large Data Bases. Seoul, Korea: [s. n.] , 2006.

二级参考文献6

1Furnas G W,Landauer T K,Gomez L M,et al.The Vocabulary Problem in Human-system Communication[J].Communications of the ACM.1987,30(11):964-971.
2Bergman O,Marom R B,Nachmias R.Improved Search Engines and Navigation Preference in Personal Information Management[J].ACM Trans.on Information Systems,2008,26(4): 1-24.
3Deerwester S,Dumais S T,Furnas G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science.1990,41(6):391-407.
4陈媛媛,屈志毅,张恒龙,廖绍雯.一种初值优化的K-均值文档聚类算法(英文)[J].江西师范大学学报（自然科学版）,2008,32(2):206-210. 被引量：2
5闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-50. 被引量：13
6崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,14(9):1593-1599. 被引量：61

共引文献12

1林育曼,饶浩,黄德群.网络答疑系统中个性化问题推荐服务[J].情报杂志,2011,30(7):172-177. 被引量：3
2杨清琳,李陶深,农健.基于领域本体知识库的语义查询扩展[J].计算机工程与设计,2011,32(11):3853-3856. 被引量：7
3胡炜,徐青翠,樊中奎.基于用户日志双向聚类的查询扩展方法[J].数字技术与应用,2011,29(12):233-234. 被引量：1
4蒋建洪,罗玫.在线商品的潜在语义信息提取及分类研究[J].计算机与数字工程,2014,42(1):112-116. 被引量：1
5田永昌,李颖.基于兴趣模型的查询扩展[J].计算机与现代化,2014(7):36-39.
6肖正,刘辉,李兵.一种基于语义距离的Web评论SVM情感分类方法[J].计算机科学,2014,41(9):248-252. 被引量：13
7张世博,刘博爱,柳朝阳,张宝全.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2):37-42. 被引量：4
8胡旷达.基于神经网络的个性化信息检索模型研究[J].现代计算机（中旬刊）,2016(4):18-23. 被引量：2
9孙达明,张斌,张书波,马安香.面向差异化搜索背景的查询推荐方法[J].计算机工程,2016,42(11):202-206. 被引量：2
10薛醒思,杨佩.基于差分进化算法的语义查询扩展技术[J].宝鸡文理学院学报（自然科学版）,2018,38(2):79-84.

1吴会松.试论软件文档的用户界面及设计[J].邵阳高专学报,1997,10(1):12-15.
2赵志成.基于Android手机平台的来电通设计[J].哈尔滨师范大学自然科学学报,2014,30(6):72-74.
3吴会松.试论软件文档的用户界面及设计[J].电子工程师,1997,0(3):12-16.
4崔兆顺,韩双旺.利用VB实现文档分析[J].甘肃联合大学学报（自然科学版）,2004,18(3):32-34.
5吴会松,陈润生.试论软件文档的用户界面及设计[J].宁夏工学院学报（自然科学版）,1997,9(2):24-28.
6胡颖.抄袭检测技术[J].内江科技,2010,31(12):117-118. 被引量：1
7吴会松,杜希松.软件文档的用户界面及设计[J].山东建筑工程学院学报,1997,12(3):95-99.
8黄金凤,曾凌静.Office文档分析和自动阅卷系统的设计与分析[J].莆田学院学报,2011,18(5):77-81. 被引量：2
9何云升,郑小宁.XML文档分析研究[J].电子科技,2001,14(19):27-29.
10周剑烽.基于本体的局部文档分析查询扩展方法研究[J].科技传播,2011,3(3):54-54.

计算机工程

2012年第2期

浏览历史

内容加载中请稍等...

一种基于聚类的语义检索算法

参考文献5

二级参考文献6

共引文献12

相关作者

相关机构

相关主题

浏览历史