期刊文献+

TF-IDF模型和LSI模型文本相似度算法的应用 被引量:5

下载PDF
导出
摘要 本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的基础文本进行调整,减少了噪声信息的影响。相似度算法可以计算不同文本之间的相似程度。词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潜在语义索引(Latent Semantic Indexing,LSI)模型是常见的文本相似度计算模型。本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的咨询矢量进行调整,减少了噪声信息的影响。
作者 马伟彬
出处 《电子技术与软件工程》 2022年第1期130-133,共4页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
  • 相关文献

参考文献8

二级参考文献40

  • 1任纪生,王作英.一种新的潜在语义分析语言模型[J].高技术通讯,2005,15(8):1-5. 被引量:3
  • 2陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量:9
  • 3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
  • 4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
  • 5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
  • 6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
  • 7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
  • 8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
  • 9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
  • 10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献246

同被引文献49

引证文献5

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部