基于KNN的2015NIPS论文集文档相似度分析被引量：1

下载PDF

导出

摘要以2015年NIPS会议(世界上顶级的机器学习会议之一)上收录的论文集为研究对象,通过一系列的相关数据处理方法将其整理成实验数据(提供下载),基于Abstract和Fulltext模型下建立TF-IDF矩阵,通过KNN算法来计算和对比二者的文档相似度。实验结果发现,Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型;二者模型下的共同相似文档个数随着K nearest neighborhood(KNN)算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言,Abstract模型在为我们进一步研究文档相似度提供了更好的依据。

作者尧涛

机构地区广州大学数学与信息科学学院

出处《科技资讯》 2017年第7期217-218,220,共3页 Science & Technology Information

关键词相似论文 ABSTRACT Fulltext TF-IDF KNN

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83

二级参考文献5

1宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：42
2严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
3YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
4GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
5The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.

共引文献182

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8吴登堂.关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J].丹东师专学报,2003,25(2):25-27. 被引量：4
9文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
10年玉萍.中文信息处理与词汇研究概述[J].西安电子科技大学学报（社会科学版）,2002,12(2):89-91. 被引量：1

同被引文献9

1李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17
2郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
3徐德玉,王迪.基于COPS原型系统的网上文章复制检测[J].科技信息,2009(31):49-50. 被引量：1
4刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
5钱雪忠,吴志媛.基于网页概率潜在语义信息的用户兴趣聚类[J].计算机工程与科学,2014,36(4):765-771. 被引量：2
6张昭楠.基于SVM的中文文本分类系统的设计与实现[J].电子设计工程,2016,24(16):139-141. 被引量：6
7梁浩波.基于文本挖掘的用电客户诉求智能聚类研究[J].广东电力,2016,29(8):45-50. 被引量：17
8楼凤丹,裴旭斌,王志强,纪德良.基于云计算及大数据技术的电力搜索引擎技术研究[J].电网与清洁能源,2016,32(12):86-92. 被引量：28
9楼亚平.浅析重大项目实施招标投标的重要性[J].招标采购管理,2013,0(11):40-41. 被引量：1

引证文献1

1刘玉林,郭雅娟,陈锦铭,陈昊.基于自然语言处理技术的电网招标资料查重系统研制[J].电力信息与通信技术,2018,16(5):11-17. 被引量：9

二级引证文献9

1龙婧,徐文峰,罗启星.面向智能写作的混合推荐模型研究[J].电力信息与通信技术,2019,17(4):56-61.
2魏泳,陈甜妹,王庆,刘美意.基于供应商信息库的物资成本自动化分析模型的研究与实现[J].自动化与仪器仪表,2019,0(12):169-171. 被引量：2
3肖立华,张博,胡伟,陈继军,韩智忠.基于机器学习的电网工程量计价预测模型[J].沈阳工业大学学报,2021,43(3):241-246. 被引量：11
4王琼,杨波,陈佐虎.基于共有文本特征词跨类联合分类的电力文本分类算法研究[J].电子技术与软件工程,2021(7):213-214.
5王宏,周育忠,李自立,陶秀杰.电力知识发现系统的设计与实现[J].电力信息与通信技术,2021,19(7):17-24. 被引量：3
6邓春宇,沙宇恒,任玲玲,陈文静,严俊.基于智能聚类算法的企业储备项目数据价值挖掘应用研究[J].电力信息与通信技术,2021,19(11):44-55. 被引量：1
7王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40.
8魏冠元,赵紫璇,彭国政,史梦洁.基于知识图谱的电力科技专家遴选系统设计与应用[J].电力信息与通信技术,2023,21(5):33-41. 被引量：1
9刘腾泽,王贺阳,王然.基于灰色vlPSO-LSSVM模型的机械制造车间电力储备需求预测[J].智能物联技术,2023,55(4):6-12.

1赵俊杰,胡学钢.基于文本分类的文档相似度计算[J].微型电脑应用,2008,24(12):46-47. 被引量：6
2周小娟.对IPv6和IPv4传输性能的对比研究[J].电子设计工程,2013,21(13):9-10. 被引量：2
3马昌威,邵莉.一种融合本体与粗糙集的文档相似度计算方法[J].计算机与现代化,2012(10):17-20.
4于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
5江励,管贻生,蔡传武,朱海飞,周雪峰,张宪民.仿生攀爬机器人的步态分析[J].机械工程学报,2010,46(15):17-22. 被引量：40
6蔡元哲,李佩,刘红岩,何军,杜小勇.S-SimRank:结合内容和链接信息的文档相似度计算方法(英文)[J].计算机科学与探索,2009,3(4):378-391. 被引量：3
7谌志群,王小华,王荣波.一种结构与内容相结合的XML文档聚类方法[J].情报学报,2009,28(5):693-699. 被引量：4
8郑雄文,靳亚维.基于公理设计的车间调度算法研究[J].工程设计学报,2010,17(6):406-409. 被引量：1
9张红宇,王占林.离散双输出反馈控制的最优协调性合成设计[J].控制理论与应用,1996,13(2):205-211.
10孙斌.一种义项矩阵模型SMM[J].中文信息学报,2005,19(2):28-35. 被引量：3

科技资讯

2017年第7期

浏览历史

内容加载中请稍等...

基于KNN的2015NIPS论文集文档相似度分析被引量：1

参考文献2

二级参考文献5

共引文献182

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于KNN的2015NIPS论文集文档相似度分析 被引量：1

参考文献2

二级参考文献5

共引文献182

同被引文献9

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于KNN的2015NIPS论文集文档相似度分析被引量：1