基于的文献文本聚类分析

Clustering Analysis of Literature Text Based on k-means

下载PDF

导出

摘要文本进行分词及去除停用词处理,然后使用词频——逆文档频率(TF-IDF)权值计算方法将数处理的内容向量化,然后采用K-Means聚类算法实现文本聚类。实验结果表明,该方法能够有效对文献进行梳理,使读者更有效的获取同一类型的文献,具有一定的使用价值和应用前景。 In this paper,the classical clustering algorithm K-Means is used to cluster the documents based on the summary of the documents.First,the text of the document summary is processed by word segmentation and removing stop words,then the content of the number processing is vectorized by the weight of word frequency-inverse document frequency(TF-IDF),and then the text clustering is realized by K-means clustering algorithm.The experimental results show that this method can sort out the literature effectively,and make the reader obtain the same type of literature more effectively,which has a certain value and application prospect.

作者宋宏标 Song Hongbiao(Information College,Guizhou University of Finance and Economics,Guian,Guizhou 550025)

机构地区贵州财经大学信息学院

出处《贵图学苑》 2021年第2期61-63,共3页 Guizhou Library Publication

关键词文本聚类 K-MEANS算法 TF-IDF Text Clustering K-means Algorithm TF-IDF

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献8

1王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术,2019,43(12):76-80. 被引量：21
2齐丽花,张妮妮,秦晓梅.基于K-means的专利文本聚类分析[J].电脑知识与技术,2018,14(8):206-207. 被引量：8
3余敏槠,余晓敏,王杨,陈恺心,单桂华,金钟.文献聚类结果可视分析方法研究[J].计算机辅助设计与图形学学报,2020,32(10):1645-1654. 被引量：1
4王娟,李卓娥.基于叙词表的K-means文本聚类修正方法[J].情报杂志,2011,30(12):154-156. 被引量：2
5谭晋秀,何跃.基于k-means文本聚类的新浪微博个性化博文推荐研究[J].情报科学,2016,34(4):74-79. 被引量：12
6金宇杰,袁明.基于TF-IDF算法的新词发现系统原理与实现[J].信息化研究,2020,46(5):39-44. 被引量：6
7傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
8王荻智,李建宏,施运梅.基于K-means的政府公文聚类方法[J].软件导刊,2020,19(6):201-204. 被引量：3

二级参考文献54

1肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
2陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
3尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
4夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
5Milstead JL. ASIS Thesaurus of Information Science and Librarianship[ M ]. 3nd ed. Medford, NJ : Learned Information ,2005.
6马芳,王效岳.基于数据挖掘技术的专利信息分析[J].情报科学,2008,26(11):1672-1675. 被引量：16
7李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
8韩红旗,朱东华,刘嵩,汪雪锋.关联词约束的半监督文本分类方法[J].计算机工程与应用,2010,46(4):113-116. 被引量：3
9韩红旗,朱东华,汪雪锋.类关联词约束的K-Means半监督文本聚类方法[J].微计算机信息,2010,26(15):4-5. 被引量：2
10李蔚.针对火灾统计数据的二元线性回归分析[J].黑龙江科技信息,2010(24):54-54. 被引量：3

共引文献47

1姜微.电子政务中的留言智能分析技术[J].智能城市,2020(23):7-8.
2尚珍宇(译),程可欣,简钰清,王志芳,王颖(译),周佳怡(译).社交媒体文本数据分析方法对比与适用性研究:以北京市城市公园感知为例[J].景观设计学（中英文）,2023,11(5):8-29. 被引量：1
3赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
4张劲松,季平.四种颈淋巴清扫术切口在口腔外科中的比较[J].重庆医科大学学报,2000,25(2):208-209. 被引量：2
5夏名首,刘玉林.基于K-MEANS聚类的电商店铺经营策略分析[J].商业经济研究,2017(5):52-54. 被引量：4
6杜秀英.基于聚类与语义相似分析的多文本自动摘要方法[J].情报杂志,2017,36(6):167-172. 被引量：7
7陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
8冯永强,李亚军.一种基于卷积自编码器的文档聚类模型[J].现代信息科技,2018,2(2):12-15.
9方菁,郭继荣.系统聚类在英语外交新闻计量文体特征中的应用[J].情报杂志,2018,37(3):171-177. 被引量：2
10徐建民,刘明艳,王苗.基于用户扩展兴趣的微博推荐方法[J].计算机应用研究,2019,36(6):1652-1655. 被引量：7

1周志宇,郭朝阳,余志斌,张士举,杨丰玉.一种面向故障短文本的改进聚类方法研究[J].科学技术创新,2024(10):70-73.
2高海宾.一种融合乌鸦搜索算法的K-means聚类算法[J].新乡学院学报,2024,41(3):19-25.
3尹声声.基于深度学习的医院海量档案特征快速查询算法研究[J].自动化技术与应用,2024,43(5):114-117.
4王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.
5张语轩,耿秀丽,潘飞.基于多源数据的智慧养老服务供需匹配研究[J].上海理工大学学报,2024,46(2):214-224. 被引量：1
6王远志,范旭辉.基于迁移学习与改进的Mask R-CNN液晶屏缺陷检测方法[J].安庆师范大学学报（自然科学版）,2024,30(1):78-82.
7吴奇珂,程培军,钱韦廷,姜浩宇,胡佳.调度操作票自动校验的CNN-BiLSTM方法[J].核电子学与探测技术,2024,44(2):316-322.
8陈智亮,朱启法,曹亚男,刘国侠,蔡宪杰,程廷明,马称心,王可,章照停,杨悦章,常爱霞,罗成刚,张玉,耿锐梅,闫鼎.皖南烟区烤烟新品种中川208的适宜留叶数研究[J].浙江农业科学,2024,65(4):937-941. 被引量：1
9杨大战,李岩,周冬亮,李钢,杨斌,高玮辰.核脉冲信号的对数处理[J].黑龙江科学,2024,15(10):84-86.
10安瑞钰,郝志斌.基于半监督主动学习的小麦叶片病虫害区域分割方法[J].天津农学院学报,2024,31(2):87-93.

贵图学苑

2021年第2期

浏览历史

内容加载中请稍等...

基于的文献文本聚类分析

参考文献8

二级参考文献54

共引文献47

相关作者

相关机构

相关主题

浏览历史