基于网络舆情的K-Means算法的改进研究被引量：3

The Improvement of K-Means Clustering Algorithm based on Internet Public Opinion

下载PDF

导出

摘要传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。 The traditional K-Means clustering algorithm can only ensure the convergence to a local optimum,leading to the initial clustering results are very sensitive to the choice of representative points.Agglomerative hierarchical clustering option to eliminate the initial cluster centers can be automatically generated for text set at different levels of clustering model,but it is higher in computational complexity,and irreversible aggregation.In this article,analysis deeply the advantages and disadvantages of the K-Means clustering algorithm and agglomerative hierarchical clustering algorithm according to the network characteristics of public opinion,and improving the K-Means clustering algorithm.The core idea of the improved algorithm is combining the advantages of two algorithms at the initial point selection and clustering processes,making integration optimization.Through practical application shows that the improved algorithm can improve the quality and efficiency of the network public opinion information and clustering results.

作者罗晖霞曲晓玲

机构地区中北大学山西省政府办公厅

出处《电脑开发与应用》 2010年第8期4-6,15,共4页 Computer Development & Applications

基金山西人事厅资助项目(SX20090108-07)

关键词网络舆情文本聚类 K-MEANS算法凝聚层次聚类聚类过程 internet public opinion text clustering K-Means algorithm hierarchical agglomerative clustering clustering process

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1马娜.文本聚类研究[J].电脑知识与技术（过刊）,2009,15(7X):5487-5489. 被引量：2
2雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：112
3曹高辉,焦玉英,成全.基于凝聚式层次聚类算法的标签聚类研究[J].现代图书情报技术,2008(4):23-28. 被引量：39
4黄志红.基于层次聚类的k均值算法研究[J].电脑开发与应用,2009,22(7):1-2. 被引量：5
5石剑飞,闫怀志,牛占云.基于凝聚的层次聚类算法的改进[J].北京理工大学学报,2008,28(1):66-69. 被引量：12
6毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9

二级参考文献46

1王升明,李淼.一种基于改进的自组织特征映射网络的文档聚类方法[J].计算机工程与应用,2005,41(3):167-169. 被引量：3
2周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
3宋江春,沈钧毅,宋擒豹.一个基于关联规则的多层文档聚类算法[J].计算机应用,2005,25(7):1570-1572. 被引量：4
4尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
5王银燕,余镇危,曹怀虎,潘耘.基于二度量的单播最短路径算法[J].计算机工程,2007,33(5):89-90. 被引量：3
6Bradley P S,Fayyad U M. Refining Initial Points for K-means Clustering[A]. Proceedings of the Fifteenth International Conference on Machine Learning [C]. (ICML98) ,1998.
7Kanungo T, Mount D M, Netanyahu N S et al. The Analysis of a Simple K-Means Algorithm[M]. 北京:外文出版社,2000.
8Kannan R, Vempala S,Adrian Vetta. On Clusterings: Good, Bad, and Spectral [A]. Proc. of the 41st Foundations of Computer Science [C]. Redondo Beach, 2000.
9Kantabutra S. Efficient Representation of Cluster Structure in Large Data Sets [D]. Ph.D. Thesis, Tufts University, Medford, MA, September,2001.
10Selim SZ, Alsultan K. A Simulated Annealing Algorithm for the Clustering Problem. Pattern Recognition. 1991,24(10): 1003 - 1008.

共引文献172

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
3王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
4窦永香,苏山佳,赵捧未.基于Porter算法的英文标签聚类方法研究[J].现代图书情报技术,2009(9):40-44. 被引量：9
5梁斌梅.孤立点检测改进径向基神经网络动态预测模型[J].计算机工程与应用,2009,45(28):52-54.
6梁斌梅.基于层次聚类的孤立点检测方法[J].计算机工程与应用,2009,45(32):117-119. 被引量：4
7周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3
8白华.用户标注的词语网络与语义描述[J].图书情报工作,2010,54(2):70-73. 被引量：2
9王晓艳,马骥.粗糙集的泛系化扩展模型[J].电脑开发与应用,2010,23(3):30-31.
10吴江.凝聚子群分析构建自动分类网络地图[J].图书馆学研究,2010(2):56-62. 被引量：9

同被引文献20

1刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58. 被引量：9
2李庆东.聚类分析在股票分析中的应用[J].辽宁石油化工大学学报,2005,25(3):94-96. 被引量：14
3张杨,宋恒.基于聚类技术的股市基本趋势规律挖掘[J].世界经济情况,2006(10):18-21. 被引量：2
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5方国斌.中国股市波动性聚类特征参数与非参数分析[J].技术经济,2007,26(10):84-88. 被引量：3
6张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[J].计算机工程与应用,2009,45(15):166-168. 被引量：23
7郝洪星,朱玉全,陈耿,李米娜.基于划分和层次的混合动态聚类算法[J].计算机应用研究,2011,28(1):51-53. 被引量：12
8周世兵,徐振源,唐旭清.基于近邻传播算法的最佳聚类数确定方法比较研究[J].计算机科学,2011,38(2):225-228. 被引量：30
9汤寒青,王汉军.改进的K-means算法在网络舆情分析中的应用[J].计算机系统应用,2011,20(3):165-168. 被引量：7
10钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27

引证文献3

1岑晓雪,秦江涛.改进k-means聚类在股价波动趋势上的应用[J].科技和产业,2016,16(1):144-148. 被引量：1
2谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(1):155-158. 被引量：17
3陈家佳,林海健,陈文豪.广播电视台基于机器学习的智能化舆情线索分析系统的设计与应用[J].广播与电视技术,2021,48(7):46-51.

二级引证文献18

1张礼星,唐湘华,唐胜,章克昌.里氏木霉纤维素酶在大曲酒丢糟中的应用[J].酿酒科技,2000(3):52-53. 被引量：12
2肖枝洪,于浩,王一超.基于动态离差平方和准则的无监督机器学习[J].重庆理工大学学报（自然科学）,2018,32(11):134-139. 被引量：10
3李建新.基于数据流MSW算法在BBS舆情分析系统中的应用[J].合肥工业大学学报（自然科学版）,2019,42(2):195-199. 被引量：3
4陈凤,蒙祖强.基于BTM和加权K-Means的微博话题发现[J].广西师范大学学报（自然科学版）,2019,37(3):71-78. 被引量：2
5项睿,吴华玲,李琳,张立.基于K-Means聚类算法的股票技术指标分析[J].电脑编程技巧与维护,2019,0(12):4-7.
6杨秀璋,武帅,夏换,于小民.基于主题挖掘和情感分析的“新冠肺炎疫情”舆情分析研究[J].计算机时代,2020(8):31-36. 被引量：18
7王炼,陆惠惠.基于K-means算法的电网用户标签特征分类软件缺陷检测[J].电子设计工程,2020,28(18):122-126. 被引量：3
8曹文梁,康岚兰,王石.动态环境下的自适应反向扩散演化算法[J].南京师大学报（自然科学版）,2020,43(4):119-128.
9肖光华,王清莲.基于因子分析和Elman网络的舆情关键词热度预测[J].计算机系统应用,2021,30(3):243-249. 被引量：5
10尚秋明.基于K-means算法的互联网有害信息挖掘模型构建[J].电子技术与软件工程,2021(4):164-165.

1王胜.信息采集技术在互联网舆情分析中的应用[J].电子技术与软件工程,2016(18):9-9. 被引量：2
2田锡宇,王友仁,崔江.基于克隆选择和聚类的模拟电路故障诊断技术[J].传感器与微系统,2009,28(4):43-46.
3陈亚平,吴陈.FCM聚类算法与改进层次聚类算法的结合[J].科学技术与工程,2009,9(17):5008-5011. 被引量：1
4薄文彦,付文兰,张凤英.聚类算法的改进的研究[J].网络安全技术与应用,2011(6):23-25.
5杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(9):251-256. 被引量：7
6马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
7盛俊杰,谢丽聪.基于成对约束的半监督凝聚层次聚类算法[J].微型机与应用,2012,31(24):67-69.
8刘尚喜,蔡开裕,卓琳.内网舆情信息监测系统研究与设计[J].电脑应用技术,2009(1):29-35. 被引量：7
9常浩,陈莉.基于摘要的web内容挖掘研究[J].微计算机信息,2006,22(08X):302-304. 被引量：1
10陈永超,刘贵全.一种基于命名实体的搜索结果聚类算法[J].计算机工程,2009,35(7):46-48. 被引量：6

电脑开发与应用

2010年第8期

浏览历史

内容加载中请稍等...

基于网络舆情的K-Means算法的改进研究被引量：3

参考文献6

二级参考文献46

共引文献172

同被引文献20

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于网络舆情的K-Means算法的改进研究 被引量：3

参考文献6

二级参考文献46

共引文献172

同被引文献20

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于网络舆情的K-Means算法的改进研究被引量：3