摘要
向量空间模型(VSM)是信息检索领域应用较好的模型。数据库技术是一门发展成熟、应用广泛的技术。本文提出了利用VSM模型和数据库技术相结合来计算文档相似度。结合TFIDF算法思想,设计一种结合数据库进行计算权重的类TFIDF算法。在此基础上设计出了文档相似度检查软件。该软件主要有文档分词、词频统计、相似度计算三大模块,软件可以计算出文档和其他文档的相似度。
Vector Space Model (VSM) is the field of information retrieval applications better model.Database technology is a mature and widely used technology.In this paper, the use of VSM model and database technology combined to calculate the document similarity.TFIDF algorithm combined with ideas, designing a combined database to calculate the weight class TFIDF algorithms.The software have a document word, word frequency statistics, the similarity calculation of three modules, and can be calculated similarity documents and other documents
出处
《网络安全技术与应用》
2014年第8期13-14,共2页
Network Security Technology & Application
基金
安徽省级质量工程项目--精品资源共享课程
2012gxk085
<数据库原理>