摘要
本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的基础文本进行调整,减少了噪声信息的影响。相似度算法可以计算不同文本之间的相似程度。词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潜在语义索引(Latent Semantic Indexing,LSI)模型是常见的文本相似度计算模型。本文分析探讨基于TF-IDF、LSI的文本相似度算法在专利文献相似度计算中的实现,并对现有的TF-IDF、LSI的文本相似度算法的咨询矢量进行调整,减少了噪声信息的影响。
出处
《电子技术与软件工程》
2022年第1期130-133,共4页
ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING