期刊文献+

文档相似度量算法的研究与应用 被引量:2

Research and Application of Document Similarity Measuring Algorithm
下载PDF
导出
摘要 针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。 In respect to the limitation of document similarity measuring based on VSM, this paper put forward an algorithm based on public substring of strings. Storing studen's graduation-design documents with XML and generating document object tree by DOM API in java, it calculates homologous text numbers by visiting vertexes with depth-first search algorithm and making comparison of them. Taking into consideration the similarity of document structures, the new algorithm can judge documents similarity effectively.
作者 汪前进 施珺
出处 《淮海工学院学报(自然科学版)》 CAS 2007年第3期28-31,共4页 Journal of Huaihai Institute of Technology:Natural Sciences Edition
基金 江苏省现代教育技术研究课题(2004-METR-8)
关键词 文档相似 度量 XML 公共子串 VSM document similarity measuring XML public substring VSM
  • 相关文献

参考文献4

二级参考文献14

  • 1黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 4黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 5鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页
  • 6卜东波,博士学位论文,2000年
  • 7Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页
  • 8Yang Yiming,J Information Retrieval,1999年,1卷,1/2期,67页
  • 9曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量:18
  • 10朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量:45

共引文献326

同被引文献11

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部