基于奇异值分解的英文文本检索算法被引量：2

English Texts Retrieval Algorithm Based on SVD

下载PDF

导出

摘要提出一种英文文本检索算法,从文本中提取关键词项,根据转移概率计算出关键词项的状态矩阵,并通过奇异值分解,提取第一奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量。实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法。 A new retrieval algorithm for English texts is proposed. Keywords are extracted from the English texts. The state matrix of keywo（ds is calculated based on transition probabilities matrix and the first singular value vector is got through Singular Value Decomposition（SVD） as the complex feature vectors. The cosine similarity of texts is used to~ measure the similarity between the query and documents. Experimental results indicate that this algorithm gets the advantage over the traditional LSA algorithm in precision and computational efficiency.

作者高仕龙

机构地区乐山师范学院数学系

出处《计算机工程》 CAS CSCD 北大核心 2011年第1期78-80,共3页 Computer Engineering

基金四川省教育厅基金资助项目“基于混沌系统的线性调频信号检测与参数估计”(09ZB026)

关键词文本检索转移概率奇异值分解状态矩阵 texts retrieval transition probability Singular Value Deeompositinn（SVD） state matrix

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Deerwester S, Dumais S T, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
2卫威,王建民.一种大规模数据的快速潜在语义索引[J].计算机工程,2009,35(15):35-37. 被引量：10
3Salton G,Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18 (11): 613-620.
4Kalt T. A New Probabilistic Model of Text Classification and Retrieval[R]. Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report: IR-78, 1996.
5Lewis D D. Naive(Bayes) at Forty : The Independence Assumption in Information Retrieval[C]//Proc. of EMCL'98. Berlin, Germany: Springer, 1998.
6Landauer T K. A Solution to Plato's Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge[J]. Psychological Review, 1997, 104(2) : 211-240.

二级参考文献6

1何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
2Scott C D,Dumais S T,Thomas K L,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Sciences,1990,41 (6):391-407.
3Tang Chunqiang,Dwarkadas S,Xu Zhichen.On Scaling Latent Semantic Indexing for Large Peer-to-Peer Systems[C]//Proceedings of the 27th Annual international ACM SIGIR Conference on Research and Development in Information Retrieval.NY,USA:ACM Press,2004:112-121.
4Kolda T G,O'Leary D P.A Semidiscrete Matrix Decomposition for Latent Semantic Indexing Information Retrieval[J].ACM Trans.on Inf.Syst.,1998,16(4):322-346.
5Karypis G,Hart E H S.Concept Indexing:A Fast Dimensionality Reduction Algorithm with Application to Document Retrieval and Categorization[C]//Proceedings of CIKM'00.McLean,VA,USA:[s.n.],2000:12-19.
6Bingham E,Mannila H.Random Projection in Dimensionality Reduction:Applications to Image and Text Data[C]//Proceedings of KDD'01.San Francisco,CA,USA:[s.n.],2001:245-250.

共引文献9

1张彪,刘贵全.基于关联分析的文本分类特征选择算法[J].计算机工程,2010,36(22):184-186. 被引量：3
2周川祥,孟凡荣,张磊,王志愿.具有特征语义权重的数据聚类方法[J].计算机工程,2011,37(4):64-66. 被引量：1
3钱晓东,肖强,王婷婷.基于信号传递的神经网络文本降维算法[J].计算机工程,2011,37(5):213-215.
4李旻松,段琢华.基于支持向量机的隐含语意特征选择方法[J].计算机应用,2011,31(9):2429-2431. 被引量：2
5邓三鸿,万接喜,王昊,刘喜文.基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J].现代图书情报技术,2014(1):28-35. 被引量：3
6谭学清,蔡军,罗琳.基于改进的LSI标签语义检索书目系统[J].图书馆学研究,2014(11):67-72. 被引量：1
7姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
8普措才仁,蔡光波.基于奇异值分解的藏文Web不良信息检索算法研究[J].西北民族大学学报（自然科学版）,2015,36(4):23-27. 被引量：2
9李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,43(12):141-146. 被引量：2

同被引文献35

1侯澍旻,李友荣,刘光临.局部线性嵌入算法及其在信号处理中的应用[J].仪器仪表学报,2006,27(z2):1337-1339. 被引量：2
2刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
3徐志节,杨杰,王猛.利用非线性降维方法预测膜蛋白类型[J].上海交通大学学报,2005,39(2):279-283. 被引量：6
4刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
5闫娟,程武山,孙鑫.人脸识别的技术研究与发展概况[J].电视技术,2006,30(12):81-84. 被引量：20
6张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384. 被引量：4
7张爱文,樊红莲.半离散矩阵分解改进算法在网页信息检索中的应用研究[J].黑龙江工程学院学报,2007,21(2):55-57. 被引量：3
8余肖生,周宁.高维数据降维方法研究[J].情报科学,2007,25(8):1248-1251. 被引量：23
9Salton G, Yang C S. On the specification of tel'In values in automatic indexing[J]. Journal of Documentation,1973,29(4) :351 - 372.
10Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18 ( 11 ) : 613 - 620.

引证文献2

1梁士金.VSM信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作,2013,57(1):142-146. 被引量：3
2李芳,高翔.局部线性嵌入和深度自编码网络的降维方法的比较[J].中国海洋大学学报（自然科学版）,2018,48(A02):215-222. 被引量：2

二级引证文献5

1李扬.基于向量空间模型的信息检索技术的探讨[J].商情,2013(18):168-168.
2迟玉琢.2013年我国情报学研究进展[J].山东图书馆学刊,2014(6):8-13. 被引量：3
3孙新丽.基于全局资源容量的虚拟网络嵌入算法[J].计算技术与自动化,2019,38(1):81-87.
4王晓霞,徐晓钟,张彤,高超伟.基于集成深度学习算法的燃气负荷预测方法[J].计算机系统应用,2019,28(12):47-54. 被引量：10
5苏赢彬,杜学绘,夏春涛,李海华.基于文档平滑和查询扩展的文档敏感信息检测方法[J].计算机应用,2014,34(9):2639-2644. 被引量：8

1麻会东,刘国华,李旭,梁鹏,刘春辉,张凌宇.基于提取关键词的中文文档复制检测研究[J].计算机工程与科学,2007,29(10):63-64. 被引量：6
2高仕龙.基于特征融合的图像检索算法研究[J].情报杂志,2010,29(4):126-129.
3普措才仁,蔡光波.基于奇异值分解的藏文Web不良信息检索算法研究[J].西北民族大学学报（自然科学版）,2015,36(4):23-27. 被引量：2
4覃冬梅,张晓芳,邹予婷,胡平,苗伟.电学领域的检索技巧[J].硅谷,2013,6(12):85-85.
5高继刚.浅析计算机关键词检索的选取在专利检索中的作用[J].通讯世界（下半月）,2015(6):257-257. 被引量：1
6高仕龙.一种新的英文文本检索算法[J].计算机工程与应用,2010,46(5):21-23. 被引量：1
7王卫平,杨金侠.个性化信息服务中基于Tag的用户兴趣模型[J].计算机系统应用,2011,20(2):80-84. 被引量：6
8罗飞,王国胤,杨勇,李振静.基于改进的并行特征融合人脸表情识别[J].广西大学学报（自然科学版）,2009,34(5):700-703. 被引量：2
9蔡兴泉,陈开望.数字校园中学生评教短文本情感分析系统[J].数字技术与应用,2015,33(5):155-156.
10郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：6

计算机工程

2011年第1期

浏览历史

内容加载中请稍等...

基于奇异值分解的英文文本检索算法被引量：2

参考文献6

二级参考文献6

共引文献9

同被引文献35

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于奇异值分解的英文文本检索算法 被引量：2

参考文献6

二级参考文献6

共引文献9

同被引文献35

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于奇异值分解的英文文本检索算法被引量：2