分布式K-means聚类在微博热点主题发现的应用被引量：8

Application of Distributed K-Means Clustering Algorithm in Micro-Blog Hot Topic Discovery

下载PDF

导出

摘要随着互联网的飞速发展,微博已经成为一个拥有大量信息和复杂数据的社交媒体网络,这使得对于发现网络舆情面临巨大的挑战。改进了一种基于MapReduce的并行化K-means划分聚类算法,并针对K-means(K均值)算法初始聚类中心难以选取的缺点,将Isodata(迭代自组织分析算法)算法得到的K值,作为K-means算法的初始聚类中心,提高聚类的精度。最后将改进的K-means算法用于微博热点主题发现中,通过与传统的K-means算法比较,证明了改进算法能有效提高聚类的精度,而且在处理海量数据时有较大优势。 With the rapid development of the Internet,micro-blog has become a social media network with a large amount of information and complex data,which makes it a great challenge to find public opinion on the Internet.In this paper,a parallel k-means partitioning clustering algorithm based on MapReduce was improved.To overcome the disadvantage that the initial clustering center of K-means algorithm is difficult to select,the K value obtained by Iterative Self-Organizing Analysis(Isodata)algorithm was used as the initial clustering center of K-means algorithm to improve the clustering accuracy.Experimental results on the micro-blog hot topic show that the proposed algorithm performs favorably against traditional K-means algorithm in terms of clustering precision and massive data problem.

作者王林许郡蒙 WANG Lin;XU Jun-meng(College of Automation,Xi'an University of Technology,Xi'an Shanxi 710048,China)

机构地区西安理工大学自动化与信息工程学院

出处《计算机仿真》北大核心 2020年第8期121-125,共5页 Computer Simulation

基金陕西省科学技术厅重点研发计划(2017ZDCXL-GY-05-03)。

关键词划分聚类热点话题并行化改进划分聚类算法 Partition clustering Hot topic Parallelization Improved partition clustering algorithm

分类号 TP319.9 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
2杨长春,周猛,叶施仁,徐小松.基于改进CURE算法的微博热点话题发现[J].计算机仿真,2013,30(11):383-387. 被引量：12
3杨安琨.互联网热点话题发现的设计与实现[J].电子测试,2016,27(Z1):83-86. 被引量：1
4李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：49

二级参考文献31

1冯兴杰,黄亚楼.增量式CURE聚类算法研究[J].小型微型计算机系统,2004,25(10):1847-1849. 被引量：9
2郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(8):12-15. 被引量：4
3GALE LD. A sequential algorithm for training text classifiers [ J]. In Proceedings of ACM SIGIR Conference, 1994.
4CRAVEN M , FREITAG D , et al. Learning to extract symbolic knowledge from the World Wide Web. Technical Report[ R], School of Computer Science, CMU. 1998.
5PAZZANI MJ, MURAMATSU J, et al. Syskill and Webert: Identifying interesting Web sites [J]. In AAAI-96. 1996.
6DUBES RC, JAIN AK. Algorithms for Clustering Data [ M]. Prentice Hall, 1988.
7SALTON G, WONG A, YANG CS. A Vector Space Model for Automatic Indexing [ J]. Communication of the ACM, 1975, 18(5):613-620.
8LARSEN B, AONE C. Fast and effective text mining using lineartime document clustering [ A]. In Proc. of the Fifth ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining, 1999.16 -22.
9LEWIS DD. Reuters - 2 1 5 7 8 text categorization text collection 1 . 0[ DB/OL]. http:∥www. daviddlewis. co m/resources/testcollections/reuters21578/
10HAN S, BOLEY D, GINI D, et al. WebAce: A Web Agent for Document Categorization and Exploration [ J]. Proceedings of the 2nd International Conference on Autonomous Agents (Agents'98).

共引文献76

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
3龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
4索红光,杨涛.基于互信息的Web文档聚类方法[J].广西师范大学学报（自然科学版）,2007,25(2):131-134. 被引量：3
5毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9
6肖凤,郑海健,卢闯.基于聚类分析的银行客户关系管理策略研究[J].技术经济,2010,29(1):87-93. 被引量：14
7徐晓帆,罗庆异.数据挖掘技术在ETC运营管理中的应用[J].科技广场,2011(9):81-85. 被引量：7
8吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
9马军红.文本聚类算法初探[J].电子世界,2012(6):71-72. 被引量：2
10刘平峰,余文艳,游怀杰.基于模糊等价关系的文本多粒度划分方法[J].情报学报,2012,31(6):589-594. 被引量：8

同被引文献68

1王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
2黄力.基于分布式群身份认证的传感器网络设计与实现[J].计算机工程,2007,33(10):161-163. 被引量：24
3张玉峰,张婧.基于数据挖掘的Web文本不良信息监测模型研究[J].情报理论与实践,2009,32(11):89-92. 被引量：3
4原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
5谌志群,徐宁,王荣波.基于主题演化图的网络论坛热点跟踪[J].情报科学,2013,31(3):147-150. 被引量：22
6张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25
7张磊,殷梦婕,王建新,董有恒,肖超恩,刘东阳,赵成.基于随机森林的硬件木马检测方法[J].微电子学与计算机,2019,36(2):83-87. 被引量：2
8申国伟,杨武,王巍,于淼.面向大规模微博消息流的突发话题检测[J].计算机研究与发展,2015,52(2):512-521. 被引量：15
9安计勇,高贵阁,史志强,孙磊.一种改进的K均值文本聚类算法[J].传感器与微系统,2015,34(5):130-133. 被引量：19
10潘大庆.基于相对权重的网络舆情监测系统设计[J].广西民族大学学报（自然科学版）,2015,21(3):75-77. 被引量：2

引证文献8

1尚秋明.基于K-means算法的互联网有害信息挖掘模型构建[J].电子技术与软件工程,2021(4):164-165.
2徐翔.基于改进K-Means的网络异常检测[J].通信电源技术,2020,37(24):49-51.
3覃宝珍,潘大庆,李燮慧.互联网微博热点话题追踪系统设计与研究[J].大众科技,2021,23(6):5-7.
4傅丽芳,赵菲菲.基于注意力机制LSTM模型的农业舆情预测与分析[J].数学的实践与认识,2021,51(17):64-76. 被引量：2
5芦德钊,伍忠东,王鹏程.基于K-Means聚类和集成学习的HTD仿真[J].计算机仿真,2021,38(9):476-480. 被引量：1
6王林,陈青超.基于Hadoop的灰狼优化K-means算法在主题发现的研究[J].微电子学与计算机,2022,39(4):24-32. 被引量：2
7路太宇,李晓会,张馨予,吕维新,邓倩.社交网络中一种基于偏好的隐私度量方法研究[J].辽宁工业大学学报（自然科学版）,2022,42(6):393-398.
8杨舒丹,李男,郑文娟,杜启明.基于Tsallis熵的近似差分隐私K-means算法[J].信息安全学报,2023,8(4):113-125.

二级引证文献5

1王子豪.基于冬奥会新闻的命名实体识别及可视化[J].电脑知识与技术,2022,18(7):85-88.
2吴沛瑾.基于聚类算法的英语动词词形分类方法研究[J].赤峰学院学报（自然科学版）,2022,38(6):22-26.
3赵健.基于hadoop的舰船通信网络数据并行处理方法[J].舰船科学技术,2023,45(7):158-161.
4陶淘,彭颖,张晨亮.基于Hadoop技术的气象数据实时传输监控系统设计[J].计算机测量与控制,2024,32(1):114-120.
5李若晨,肖人彬.基于改进狼群算法优化LSTM网络的舆情演化预测[J].复杂系统与复杂性科学,2024,21(1):1-11. 被引量：1

1梁京章,黄星舒,吴丽娟,熊小萍.基于KPCA和改进K-means的电力负荷曲线聚类方法[J].华南理工大学学报（自然科学版）,2020,48(6):143-150. 被引量：22
2张阳.基于知识的物流作业规划方法研究[J].科学与信息化,2020(18):120-121.
3陈金戈,龙伟,李炎炎,俞晓红,杜玉龙.一种鬼影及边缘传播抑制的ViBe目标检测算法[J].四川大学学报（自然科学版）,2020,57(2):284-288. 被引量：6
4陆信蓓,周从华,张付全,张婷,蒋跃明.基于改进的K-Means算法在SNP选择中的应用[J].计算机与数字工程,2020,48(8):1943-1947.
5韩雪莲,田爱奎,王振,卢海涛.迭代自组织哈希算法[J].计算机应用研究,2020,37(5):1416-1420.

计算机仿真

2020年第8期

浏览历史

内容加载中请稍等...

分布式K-means聚类在微博热点主题发现的应用被引量：8

参考文献4

二级参考文献31

共引文献76

同被引文献68

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

分布式K-means聚类在微博热点主题发现的应用 被引量：8

参考文献4

二级参考文献31

共引文献76

同被引文献68

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

分布式K-means聚类在微博热点主题发现的应用被引量：8