基于TFIDF+LSA算法的新闻文本聚类与可视化被引量：8

News Text Clustering and Visualization Based on TFIDF+LSA Algorithm

下载PDF

导出

摘要近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。 In recent years,as an unsupervised learning method in the field of machine learning,text clustering technology has increasingly become one of the most concerned technologies in the field of data mining.To a certain extent,it is a relatively easy work to aggregate small-scale text data into several categories.However,when faced with a large number of high-dimensional Chinese text data,text clustering in this case will be faced with high and sparse data,while ensuring the quality of clustering,improving the clustering speed and visualization effect has become one of the topics of clustering research.We propose a method combining term frequency inverse document frequency(TFIDF)algorithm and latent semantic analysis(LSA)to improve the speed and visualization of kmeans Chinese text clustering.In this paper,11456 pieces of news collected from web pages are taken as experimental objects,and the experimental comparison is made based on TFIDF clustering and TFIDF+LSA clustering.According to the clustering index like Silhouette coefficient(SC),Calinski-Harabasz index(CHI)and Davies-Bouldin index(DBI),the proposed method can not only guarantee the quality of text clustering,but also greatly improve the speed and visualization of text clustering.

作者郝秀慧方贤进杨高明 HAO Xiu-hui;FANG Xian-jin;YANG Gao-ming(School of Computer Science and Engineering,Anhui University of Science and Technology,Huainan 232001,China)

机构地区安徽理工大学计算机科学与工程学院

出处《计算机技术与发展》 2022年第7期34-38,45,共6页 Computer Technology and Development

基金国家自然科学基金面上项目(61572034) 安徽省高校自然科学基金资助项目(KJ2019A0109)。

关键词词频反文档频率潜在语义分析文本聚类速度文本聚类可视化 kmeans term frequency inverse document frequency latent semantic analysis speed of text clustering text clustering visualization kmeans

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1文晓艺,郝程程.基于奇异值分解的新闻标题聚类研究[J].计算机技术与发展,2020,30(2):42-46. 被引量：3
2张涛,翁康年,顾小敏,张玥杰.融合频繁项集和潜在语义分析的股评论坛主题发现方法[J].同济大学学报（自然科学版）,2019,47(4):583-592. 被引量：2
3叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：104
4陈叶旺,申莲莲,钟才明,王田,陈谊,杜吉祥.密度峰值聚类算法综述[J].计算机研究与发展,2020,57(2):378-394. 被引量：47
5杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：268

二级参考文献47

1徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
4吴金学.基于概率潜在语义分析的文本聚类研究[J].青岛理工大学学报,2008,29(2):95-99. 被引量：3
5姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
6史瑞芳.贝叶斯文本分类器的研究与改进[J].计算机工程与应用,2009,45(12):147-148. 被引量：12
7刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34
8奉国和,郑伟.文本分类特征降维研究综述[J].图书情报工作,2011,55(9):109-113. 被引量：16
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
10朱云霞.结合聚类思想神经网络文本分类技术研究[J].计算机应用研究,2012,29(1):155-157. 被引量：13

共引文献419

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
3许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
4王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
5胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：3
6吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
7侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
8韩雪,王彤,薛文静.基于流通数据的纸质馆藏资源优化与读者服务研究[J].甘肃科技,2023,39(2):64-70.
9何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
10马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.

同被引文献51

1徐红,张斯婷,李凌方.基于LDA模型与共词分析法的农村阅读推广主题发现与热点分析[J].情报科学,2022,40(10):67-73. 被引量：11
2唐晓波,王洪艳.基于潜在狄利克雷分配模型的微博主题演化分析[J].情报学报,2013,32(3):281-287. 被引量：26
3俞琰,赵乃瑄.基于辅助集的专利主题分析领域停用词选取[J].数据分析与知识发现,2018,2(11):95-103. 被引量：6
4陈雨,李韧.科技新闻研究文献综述[J].今传媒,2016,24(2):71-76. 被引量：2
5关鹏,王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016(9):42-50. 被引量：118
6王丽颖,葛丽娜,张翼鹏,王红.增量式聚类的新闻热点话题发现研究[J].计算机与现代化,2017(3):46-50. 被引量：1
7王志刚,符一平,蔡白光.经验不确定分布一致性检验方法研究[J].模糊系统与数学,2017,31(3):175-182. 被引量：6
8张华平,商建云.面向社会媒体的开放领域新词发现[J].中文信息学报,2017,31(3):55-61. 被引量：15
9赵云松,杨鹏,张林,谭志军,梁英,张海悦,徐勇勇.血脂四项检验项目及结果临床描述与国际规范术语集映射[J].中国卫生信息管理杂志,2017,14(6):862-867. 被引量：1
10王树义,廖桦涛,吴查科.基于情感分类的竞争企业新闻文本主题挖掘[J].数据分析与知识发现,2018,2(3):70-78. 被引量：31

引证文献8

1朱敏,侯文静,顾理琴.结合文本相似度的缺陷报告评分机制[J].福建电脑,2023,39(2):35-38.
2庄金莲,林倩倩,江慧萍.基于MapReduce计算框架的文档领域本体模型构建[J].龙岩学院学报,2023,41(2):17-23.
3王曰芬,刘佳宁,王柳虹,岑咏华.高质量发展背景下科技新闻主题识别及其热点演化分析[J].情报理论与实践,2023,46(5):107-116. 被引量：3
4王怡茹,郑建立,周浩然.基于PubMedBERT预训练模型的医学术语对齐方法研究[J].软件工程,2023,26(11):39-42.
5李天义,刘勤明.基于BERT-LDA和K-means聚类的绘画作品价值评估指标体系构建[J].软件工程,2024,27(1):68-73.
6严武军,王丽蓉.基于TFIDF+LDA和Mini Batch K⁃means算法的在线课程推荐方法研究[J].现代计算机,2023,29(23):15-20.
7冷泳林,郭颖,孙晓红,曲珮漪.基于增量聚类的电子政务短文本信息挖掘算法研究[J].渤海大学学报（自然科学版）,2023,44(3):262-269.
8肖康,笪娟娟,武中旭.基于时间序列聚类的室内设计客户管理平台[J].九江学院学报（自然科学版）,2024,39(1):76-79.

二级引证文献3

1张明伟,董雪璠,张其瑶,李濯清.机器人写作论文新闻效果评价研究——以中国科学报社为例[J].图书情报工作,2023,67(16):99-110.
2刘嘉宇,李贺,谷莹,时倩如,杨心苗.不平衡数据集上在线评论有用性识别研究[J].情报理论与实践,2023,46(11):119-125. 被引量：1
3王迎霞.全媒体时代科技新闻报道创新路径探究[J].新闻研究导刊,2023,14(22):111-113. 被引量：1

1司博文,孔芳.对话中融入丰富历史信息的回应选择[J].中文信息学报,2022,36(5):85-93.
2彭雨筝,李晓露,李聪利,丁一.基于残差卷积自编码的风光荷场景生成方法[J].电力建设,2021,42(8):10-17. 被引量：2
3安海岗,白季晨,刘丽虹,李巧颖,马金龙.基于TF-IDF的网络新闻文本信息提取及复杂网络构建[J].信息与电脑,2022,34(9):34-37.
4盛雪梅,盛雪松,杨韧洲.广播电视新闻记者在采访中的应变能力探讨[J].传播力研究,2022,6(17):118-120.
5程莹,赵方溶,王彦利.微信公众平台下的家庭康复护理模式在痉挛性脑瘫患儿中的应用[J].护理实践与研究,2022,19(7):1051-1054. 被引量：1
6Haoyan Huang,Xiaoran Zhang,Xiaofang Liang,Xiufeng Wu,Xu Gu,Juan Han,Min Xue.N-carbamoylglutamate improves lipid metabolism, inflammation, and apoptosis responses in visceral adipocytes of Japanese seabass (Lateolabrax japonicus), in vivo and in vitro[J].Animal Nutrition,2021(3):707-715.
7白雅玲,周亚同,刘君.基于深度卷积嵌入聚类的日负荷曲线聚类分析[J].电网技术,2022,46(6):2104-2113. 被引量：10
8刘畅,肖斌,伍洁,张东东,蒋铁军.主成分分析和聚类在器材采购优先级制定中的应用[J].火力与指挥控制,2022,47(6):107-114. 被引量：1
9杨依霏,金月,叶茜.硕士论文专家评审一致性检验及综合评价模型[J].信息技术与信息化,2022(1):20-22. 被引量：1
10胡语文.为什么金融业比一般实业更有投资价值?[J].股市动态分析,2022(15):18-19.

计算机技术与发展

2022年第7期

浏览历史

内容加载中请稍等...

基于TFIDF+LSA算法的新闻文本聚类与可视化被引量：8

参考文献5

二级参考文献47

共引文献419

同被引文献51

引证文献8

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于TFIDF+LSA算法的新闻文本聚类与可视化 被引量：8

参考文献5

二级参考文献47

共引文献419

同被引文献51

引证文献8

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于TFIDF+LSA算法的新闻文本聚类与可视化被引量：8