基于增量文本聚类算法的热点话题检测研究

Research on hot topic detection based on incremental text clustering algorithm

下载PDF

导出

摘要针对传统TF-IDF方法提取文本特征时无法增量更新以及传统Single-Pass算法聚类准确率较低的问题,本文通过使用已有的语料库来设置IDF表并更新的方法,来减少TF-IDF计算时对语料库的依赖性,通过均值计算簇中心来提高Single-Pass算法在聚类时的准确率。利用各大平台获取的新冠肺炎新闻数据对模型进行验证。结果表明,该方法使得传统的TF-IDF提取关键词时可以增量更新,利用改进的Single-Pass算法使得综合评价指标提高了8.64%。相对于传统的Single-Pass算法,改进的Single-Pass算法只需要与一部分候选簇进行比较,有效地降低了比较次数,提高了聚类的准确性以及效率。 In order to address the problems of traditional TF-IDF methods not being able to incrementally update and having low accuracy when extracting text features and the traditional Single-Pass algorithm has a low clustering accuracy in traditional Single-Pass algorithm clustering this paper reduces the dependency on the corpus when calculating TF-IDF by using an existing corpus to set up IDF table and update it.It improves the accuracy of Single-Pass algorithm in clustering by computing the mean to determine cluster centers.The model is validated using COVID-19 news data obtained from various platforms.The results show that this method allows for incremental updating of traditional TF-IDF keywords extraction,and the improved Single-Pass algorithm can increase the comprehensive evaluation index by 8.64%.Compared to the traditional Single-Pass algorithm,the improved Single-Pass algorithm only needs to compare with a subset of candidate clusters,effectively reducing the number of comparisons and improving the accuracy and efficiency of clustering.

作者魏艺泽郭慧时晓旭 WEI Yize;GUO Hui;SHI Xiaoxu(School of Computer Science,North China Institute of Science and Technology,Yanjiao 065201,China)

机构地区华北科技学院计算机学院

出处《华北科技学院学报》 2024年第1期76-81,124,共7页 Journal of North China Institute of Science and Technology

基金科技创新2030重大项目(2021ZD0114203) 国家社会科学基金项目(21BSH072)。

关键词 Single-Pass 文本聚类文本相似度热点话题检测 TF-IDF Single-Pass text clustering text similarity hot topic detection TF-IDF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1曹义亲,盛武平,周会祥.基于TF-IDF-MP算法的新闻关键词提取研究[J].华东交通大学学报,2021,38(1):122-130. 被引量：6
2丁智斌,杜念.基于Web内容挖掘的论坛发贴分类推荐技术[J].华北科技学院学报,2011,8(1):54-59. 被引量：2
3米硕,孙瑞彬,明晓,赵汝程.基于TF-IDF算法的文本特征词提取模型[J].中国战略新兴产业,2017(10X):113-113. 被引量：1
4高楠,李利娟,李伟,祝建明.融合语义特征的关键词提取方法[J].计算机科学,2020,47(3):110-115. 被引量：8
5牛永洁,田成龙.融合多因素的TFIDF关键词提取算法研究[J].计算机技术与发展,2019,29(7):80-83. 被引量：26
6罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
7孙红光,高星,孙铁利,杨凤芹,彭杨,冯国忠.基于改进Single-Pass算法的网络新闻话题发现[J].吉林大学学报（理学版）,2018,56(1):114-118. 被引量：11
8杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计,2019,40(10):2985-2990. 被引量：14
9张琛,马祥元,周扬,郭仁忠.基于用户情感变化的新冠疫情舆情演变分析[J].地球信息科学学报,2021,23(2):341-350. 被引量：38
10方星星,吕永强.基于改进的single-pass网络舆情话题发现研究[J].计算机与数字工程,2014,42(7):1233-1237. 被引量：9

二级参考文献82

1胡雯,曾春年.Web内容挖掘算法的比较研究[J].武汉理工大学学报（信息与管理工程版）,2006,28(7):23-26. 被引量：2
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
4戴东波,印鉴.结合使用挖掘和内容挖掘的web推荐服务[J].计算机工程与应用,2005,41(18):162-165. 被引量：10
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19-21. 被引量：9
7雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
8陈正明,马光志.Web访问模式聚类中引入Web内容挖掘的方法[J].计算机工程,2006,32(18):70-71. 被引量：4
9Allan J, CarboneU J, Doddington G, et al. Topic Detection and Tracking Pilot Study: Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, February, 1998:194 - 218.
10朱靖波,陈文亮,姚天顺.面向TDT的主题相似性计算模型[C]∥全国第七届计算语言学联合学术会议论文集,2003:476-481.

共引文献198

1陈浩哲,郭妍廷.支持与压迫:新冠肺炎疫情期间社交媒体的使用对公众心理影响的一体两面[J].新媒体研究,2023,9(1):27-34.
2吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
3巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
4郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
5郭晓航,闵素芹.突发公共事件下教育舆情评析——以新冠疫情期间“停课不停学”舆情为例[J].中国传媒大学学报（自然科学版）,2020,27(6):40-47. 被引量：2
6陈学昌,韩佳珍,魏桂英.话题识别与跟踪技术发展研究[J].中国管理信息化,2011,14(9):56-59. 被引量：5
7邢美凤,过仕明.文本内容新颖性探测研究综述[J].情报科学,2011,29(7):1098-1103. 被引量：8
8韩小斌,于洪志,曹晖.面向藏文WEB的话题发现系统的设计[J].甘肃科技纵横,2011,40(6):17-19.
9朱恒民,朱卫未.基于Single-Pass的网络话题在线聚类方法研究[J].现代图书情报技术,2011(12):52-57. 被引量：6
10张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13

1张承德,刘雨宣,肖霞,梅凯.跨媒体语义关联增强的网络视频热点话题检测[J].计算机研究与发展,2023,60(11):2624-2637.
2黄海燕,姚锦江.基于物联网的紫外线消毒系统智能设计[J].自动化与仪器仪表,2024(1):141-145.
3孙爽,郑波尽,胡丽君.注记文件系统模型的建立[J].中南民族大学学报（自然科学版）,2024,43(1):90-96.
4冷泳林,郭颖,孙晓红,曲珮漪.基于增量聚类的电子政务短文本信息挖掘算法研究[J].渤海大学学报（自然科学版）,2023,44(3):262-269.
5张寿,庞俊,廖明习.一种基于混合特征选择的图聚类算法[J].小型微型计算机系统,2024,45(3):606-612.
6刘艳,李一桐.基于灰度均值的自适应FAST角点检测优化算法[J].电光与控制,2024,31(2):65-71.
7郭笃凌,闫长青.数字资源的信息过滤与精准推荐算法[J].印刷与数字媒体技术研究,2024(1):113-121. 被引量：2
8Wentian Zheng,Shijie You,Yuan Yao,Nanqi Ren,Bin Ding,Fang Li,Yanbiao Liu.Sustainable Generation of Sulfate Radicals and Decontamination of Micropollutants via Sequential Electrochemistry[J].Engineering,2023(11):144-152.
9崔馨月.基于Python Scrapy爬取技术、朴素贝叶斯算法的网页链接及文本抓取研究[J].长江信息通信,2023,36(12):77-79.
10王姣姣,姚华平.基于数据挖掘技术的数据类岗位招聘信息分析与研究[J].现代信息科技,2024,8(2):13-16.

华北科技学院学报

2024年第1期

浏览历史

内容加载中请稍等...

基于增量文本聚类算法的热点话题检测研究

参考文献11

二级参考文献82

共引文献198

相关作者

相关机构

相关主题

浏览历史