期刊文献+

基于KNN的2015NIPS论文集文档相似度分析 被引量:1

下载PDF
导出
摘要 以2015年NIPS会议(世界上顶级的机器学习会议之一)上收录的论文集为研究对象,通过一系列的相关数据处理方法将其整理成实验数据(提供下载),基于Abstract和Fulltext模型下建立TF-IDF矩阵,通过KNN算法来计算和对比二者的文档相似度。实验结果发现,Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型;二者模型下的共同相似文档个数随着K nearest neighborhood(KNN)算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言,Abstract模型在为我们进一步研究文档相似度提供了更好的依据。
作者 尧涛
出处 《科技资讯》 2017年第7期217-218,220,共3页 Science & Technology Information
  • 相关文献

参考文献2

二级参考文献5

  • 1宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量:42
  • 2严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量:7
  • 3YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
  • 4GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
  • 5The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.

共引文献182

同被引文献9

引证文献1

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部