基于聚类的热词发现与关联分析被引量：2

Hot-Word Detection and Relations Analysis Based on Document Clustering

下载PDF

导出

摘要提出一种将话题聚类算法应用到计算热词关联度上的方法。在热词发现阶段,通过对新闻文本的特征提取,构建向量空间模型,采用初始聚类中心优化的K-means算法,获取热点簇;在关联分析阶段,先通过热点簇计算词类别距离,再和新闻同现率,热词同现率加权累加,得到热词关联度。该方法已成功应用到南华大学舆情监测系统中,并在实际运行中获得较好的效果。 Proposes a method to discover hot-word relations based on topic clustering.For word discovering,vector space mode is built by extracting document features from news text,and the hot-spot cluster is achieved by K-means algorithm with ameliorated initial center.Up to the hot-word association,hot words relations are analyzed according to the weighted sum of three factors,which include the word category distance computed by the hot-spot cluster,the news co-occurrence rate and the hot words co-occurrence rate.This approach has been successfully applied to Public Opinion Monitoring System of University of South China and it obtains good results in practical operation.

作者罗旭欧阳纯萍刘志明

机构地区南华大学计算机科学与技术学院

出处《现代计算机（中旬刊）》 2016年第5期56-59,68,共5页 Modern Computer

基金湖南省哲学社会科学基金(No.14YBA335)

关键词 K-MEANS SVM 热词词群关系 K-means Algorithm SVM Hot Words Words Relationship

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Ting, X. and L. Jufang, A Comparative Study between Single-Pass Algorithm and K-means Algorithm in Web Topic Detection. At- lantis Press, 2014.
2王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
3袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153
4李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
5格桑多吉,乔少杰,韩楠,张小松,杨燕,元昌安,康健.基于Single-Pass的网络舆情热点发现算法[J].电子科技大学学报,2015,44(4):599-604. 被引量：17

二级参考文献29

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2中国互联网络信息中心.第22次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/uploadfiles/pdf/2008/7/23/170516.pdf2008-07-23.
3ICTCLAS简介[EB/OL].[2008-12-01].http://ictclas.org/sub_1_1.html.
4L. R. Rabiner (1989) A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proceedings of IEEE. 77(2):257-286.
5Satoshi S. , Nagao M. Toward memory-based translation[C]//Proceedings of the 13th International Confer ence on Computational Linguistics (COLING-90). Hel sinki, Finland, 1990: 247-252.
6吕学强.面向机器翻译的E-Chunk获取与应用研究[D].博士毕业论文.东北大学.2005:27-52.
7Nagao M. , Mori S. A new method of n-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese [C]//Proceedings from the 15th International Conference on Computational Linguistics, Kyoto 1994 : 611-615.
8刘群李素建.基于《知网》的词汇语义相似度计算[A]..第三届汉语词汇语义学研讨会[c].台北,2002..
9MacQueen J.Some Methods for Classification and Analysis of Multivariate Observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability,1967.
10Wang Wei,Yang Jiong,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C]//Proc.of the 23rd International Conference on Very Large Data Bases,1997.

共引文献244

1赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
4鲁婧婧,张晋昕,袁向东,骆福添,古萍,张熙,薛允莲.欧氏距离的加权处理对K-means法聚类效果的改进[J].中国医院统计,2008,15(1):9-12. 被引量：1
5高燕飞,陈俊杰,强彦.自适应数据库中基于特征向量的聚类算法的研究与改进[J].电脑开发与应用,2008,21(7):57-58.
6强彦,陈俊杰,高燕飞.自适应数据库中基于特征向量的聚类算法[J].计算机工程与应用,2008,44(27):162-164. 被引量：2
7花海洋,赵怀慈.聚类算法在银行客户细分中的应用[J].计算机工程,2008,34(24):37-39. 被引量：5
8刘文远,杨丹丹,王宝文.IRP中基于聚类分析的主题数据库划分研究[J].情报杂志,2009,28(1):17-18. 被引量：2
9步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：23
10陈森平,陈启买.基于熵的K均值算法的改进[J].广东技术师范学院学报,2008,29(9):27-29. 被引量：2

同被引文献31

1杨萍.网络流行语:网民自主话语生产的文化景观[J].新闻前哨,2010(4):87-89. 被引量：49
2傅毅飞.新闻标题中的网络热词[J].传媒观察,2010(10):49-50. 被引量：19
3李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
4刘晓丽,郭智军.全媒语境下热词成因考察[J].湘潭大学学报（哲学社会科学版）,2011,35(4):130-132. 被引量：4
5吴建华,许振兴,班生.论当前我国舆论监督的新变化——基于网络热词的视角[J].湖南科技大学学报（社会科学版）,2011,14(5):106-108. 被引量：14
6李彪.网络事件传播阶段及阈值研究——以2010年34个热点网络舆情事件为例[J].国际新闻界,2011,33(10):22-27. 被引量：70
7方亭,樊英利.从网络热词解读草根文化特征[J].新闻爱好者,2011(11):11-12. 被引量：10
8刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,2(1):50-58. 被引量：622
9杨健.“屌丝”登堂入室——浅析一个网络热词如何进入主流媒体[J].编辑学刊,2013(2):88-92. 被引量：9
10郭小璐,张海娜.从报刊标题“网络热词”的运用看新闻语言规范化[J].学术交流,2013(4):146-149. 被引量：19

引证文献2

1关浩华.基于语音分析的智能质检关键词提取方法设计[J].自动化与仪器仪表,2017(7):106-108. 被引量：5
2孙文峥.基于“用户—媒体—学术”视角的网络热词传播特征分析[J].出版科学,2017,25(5):99-104. 被引量：1

二级引证文献6

1武鹏,郭晓芸,陈鹏,王宗伟,曹璐,金鹏.基于LSTM网络的语音服务质检推荐技术[J].计算机与现代化,2020(7):76-79. 被引量：3
2梁晨,刘紫英.基于百度指数和谷歌趋势分析日源流行语传播特征[J].科技传播,2021,13(9):122-125.
3单成桐,唐渊,欧阳洪波,郭庆堃,邹博胜,刘文涛,吴琼发.基于STM32的智能备忘录研究[J].电子制作,2021,29(18):19-22.
4莫志强,曹斌,范菁,王俊.基于文本挖掘的在线客服服务流程一致性检测研究[J].小型微型计算机系统,2022,43(2):293-299. 被引量：2
5马晓亮,刘英,杜德泉,张国新.电信运营商AI客服平台技术研究与应用分析[J].电信科学,2023,39(9):141-152. 被引量：5
6徐蕊,何萍,赵涵,马勇.专利视角下智能语音质检关键核心技术主题的研究[J].中国发明与专利,2024,21(1):13-19. 被引量：1

1李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
2黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
3孙倩.浅析舆情监测系统与搜索引擎在舆情监测方面的差异[J].文艺生活（下旬刊）,2015,0(11):276-276.
4李忠俊.基于话题检测与聚类的内部舆情监测系统[J].计算机科学,2012,39(12):237-240. 被引量：8
5刘焕华,卢银.基于SOA模式的南华大学数字化校园[J].电脑知识与技术,2013,9(3):1711-1714. 被引量：1
6陈骍,檀结庆.基于空间分布差异度的分块彩色图像检索方法[J].计算机应用,2012,32(6):1539-1543. 被引量：1
7钟荣飞.基于主题模型的网络舆情监控系统设计[J].电脑知识与技术,2015,0(3):90-93. 被引量：1
8赵永升.基于微格式的分布式网络舆情监测系统[J].计算机工程,2013,39(11):272-275. 被引量：5
9王珍.网络舆情监测技术研究及其在高校的应用[J].电脑知识与技术,2016,0(8):42-43. 被引量：1
10于强.舆情监测系统报警功能设计[J].电子技术与软件工程,2016(13):76-78.

现代计算机（中旬刊）

2016年第5期

浏览历史

内容加载中请稍等...

基于聚类的热词发现与关联分析被引量：2

参考文献5

二级参考文献29

共引文献244

同被引文献31

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于聚类的热词发现与关联分析 被引量：2

参考文献5

二级参考文献29

共引文献244

同被引文献31

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于聚类的热词发现与关联分析被引量：2