BERT-Single:半监督的话题检测与追踪方法被引量：1

BERT-Single:semi-supervised method for topic detection and tracking

下载PDF

导出

摘要针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数据训练预训练语言模型BERT,使BERT模型学习到任务特定的先验知识,生成能够适应话题检测与追踪任务且包含深层语义特征的文本向量;然后利用改进的Single-Pass聚类算法将预训练语言模型学习到的有标签样本信息泛化到无标签数据上,提升模型在话题检测与追踪任务上性能。在构建的数据集上进行实验,结果显示,相较于对比模型,BERT-Single模型精确率至少提升了3个百分点、召回率至少提升了1个百分点、F1值至少提升了3个百分点。BERT-Single模型对于解决话题检测与追踪问题具有较好效果,并能够很好地适应增量式聚类任务。 At present,it is difficult to learn deep semantic features and task-related features when unsupervised clustering applied to topic detection and tracking tasks,and K-means clustering and Latent Dirichlet Allocation(LDA)methods can not be applied to incremental clustering.A semi-supervised BERT-Single algorithm based on pre-trained language model was proposed.Firstly,the pre-trained language model BERT was trained by small-scale labeled data to learn task-specific prior knowledge,and was used to generate text vectors suitable to topic detection and tracking tasks and containing deep semantic features.Then,an improved Single-Pass clustering algorithm was used to generalize the labeled sample information learned from the pretrained language model to the unlabeled data to improve the performance of the model in topic detection and tracking tasks.According to the experimental results on the constructed data set,compared with comparison models,the accuracy of BERT-Single model increased by 3 percentage points,recall increased by 1 percentage points,and F1 value increased by 3 percentage points.The BERT-Single model can solve the problems of topic detection and tracking well,and it can adapt to the incremental clustering tasks well.

作者侯博元崔喆谢欣冉 HOU Boyuan;CUI Zhe;XIE Xinran(Chengdu Institute of Computer Application,Chinese Academy of Sciences,Chengdu Sichuan 610041,China;School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院成都计算机应用研究所中国科学院大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2022年第S01期21-27,共7页 journal of Computer Applications

基金四川省科技计划项目(2020YFG0009) 四川省重大科技专项(2019ZDZX0005)。

关键词聚类半监督学习话题检测与追踪预训练语言模型新闻话题 clustering semi-supervised learning Topic Detection and Tracking(TDT) pre-training language model news topic

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张仰森,段宇翔,黄改娟,蒋玉茹.社交媒体话题检测与追踪技术研究综述[J].中文信息学报,2019,0(7):1-10. 被引量：18
2陈兴蜀,马晨曦,王文贤,高悦,王海舟.基于改进的ccLDA多数据源热点话题检测模型[J].工程科学与技术,2018,50(2):141-147. 被引量：4
3代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀,王海舟,罗梁.基于层次聚类的子话题检测算法[J].华南理工大学学报（自然科学版）,2019,47(8):84-95. 被引量：11
4余冲,李晶,孙旭东,傅向华.基于词嵌入与概率主题模型的社会媒体话题识别[J].计算机工程,2017,43(12):184-191. 被引量：13
5寇宛秋,李芳.基于种子词汇的话题标签抽取研究[J].中文信息学报,2013,27(5):114-121. 被引量：7
6李丰男,孟祥茹,焦艳菲,张琳琳,刘念.基于多特征融合Single-Pass-SOM组合模型的话题检测[J].计算机系统应用,2020,29(7):245-250. 被引量：2
7李海磊,杨文忠,李东昊,温杰彬,钱芸芸.基于特征融合的K-means微博话题发现模型[J].电子技术应用,2020,46(4):24-28. 被引量：7
8张帆,潘亚雄,胡勇.基于改进Single-Pass的新闻话题检测与追踪技术研究[J].信息安全研究,2020,6(5):396-403. 被引量：4

二级参考文献70

1陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
2赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
3徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报（社会科学版）,2007(1):89-93. 被引量：141
4Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
5Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.
6Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.
7Johri N,Roth D,Tu Y.Experts' retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010 workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.
8William Darling,Fei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.
9Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.
10Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.

共引文献54

1刘玉文,王凯.面向地域的网络话题识别方法[J].数据分析与知识发现,2020,4(2):173-181. 被引量：2
2李艳,沈卓,陈嘉钰.情报分析的基本问题及研究进展[J].情报学进展,2020(1):120-164. 被引量：4
3李佳欣,苏曙光.基于BERT的图像和文本多模态融合分类模型[J].计算机应用,2023,43(S01):39-44. 被引量：3
4姚兆旭,马静.面向微博话题的“主题+观点”词条抽取算法研究[J].现代图书情报技术,2016(7):78-86. 被引量：6
5陈斌,马静.基于HLDA-IDF模型的网络文本主题挖掘研究[J].情报理论与实践,2017,40(10):117-122. 被引量：3
6郎冬冬,刘晨晨,冯旭鹏,刘利军,黄青松.一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现[J].计算机应用与软件,2018,35(3):54-60. 被引量：6
7刘耘,袁华.基于大数据的需求驱动的职业能力培养研究[J].电子科技大学学报（社科版）,2018,20(2):8-14. 被引量：4
8袁华,徐华林,钱宇,罗谦.域内海量数据中热点话题及其特征词抽取方法[J].管理工程学报,2018,32(4):133-140. 被引量：3
9许莹莹,黄浩.基于标签分解的口语理解模型[J].计算机工程,2019,45(7):237-241.
10韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3

同被引文献9

1孙红光,高星,孙铁利,杨凤芹,彭杨,冯国忠.基于改进Single-Pass算法的网络新闻话题发现[J].吉林大学学报（理学版）,2018,56(1):114-118. 被引量：11
2蔡永明,长青.共词网络LDA模型的中文短文本主题分析[J].情报学报,2018,37(3):305-317. 被引量：43
3刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：149
4黄建一,李建江,王铮,方明哲.基于上下文相似度矩阵的Single -Pass短文本聚类[J].计算机科学,2019,46(4):50-56. 被引量：6
5刘干,林杰豪,翟雯熠.基于中心词和LDA的微博热点话题发现研究[J].情报杂志,2021,40(5):143-148. 被引量：12
6张蕾,姜宇,孙莉.一种改进型TF-IDF文本聚类方法[J].吉林大学学报（理学版）,2021,59(5):1199-1204. 被引量：16
7李勇.基于两层聚类的微博热点话题发现算法研究[J].自动化技术与应用,2021,40(11):45-50. 被引量：2
8向卓元,吴玉,陈浩,张芙玮.基于突发词对主题模型改进算法的微博热点话题发现研究[J].情报杂志,2022,41(1):104-112. 被引量：4
9龚晓康,应文豪,王骏,龚声蓉.结合LDA和孪生BiLSTM的话题演化跟踪方法[J].中文信息学报,2022,36(2):93-103. 被引量：3

引证文献1

1郭慧,王亚楠,王欣艳,魏艺泽,王养廷.基于组合相似度动态聚类和词熵的网络话题在线检测[J].情报杂志,2024,43(5):159-166.

1邱代东.从跨媒介改编的实证研究看岭南民间故事的开发策略[J].传播与版权,2021(6):82-85.
2江未来,徐国强,王耀南.一种无人机自主避障与目标追踪方法[J].宇航学报,2022,43(6):802-810. 被引量：4
3杨一璞,朱永华,高海燕,高文靖.一种结合文章信息的新闻评论情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):170-178. 被引量：1
4周浩.浅析移动互联时代新闻编辑力的重构策略[J].传播与版权,2022(1):4-6. 被引量：2
5陈红顺,陈文杰.基于生成对抗网络的遥感影像场景分类[J].微型电脑应用,2022,38(6):20-23.
6徐菲菲,陈赛红,田宇.基于BTM模型和改进聚类算法的热点话题检测[J].计算机应用与软件,2022,39(5):283-290. 被引量：3
7左力,徐志锟,肖梦雪.区块链多链下的数据隐私保护K均值聚类算法[J].通信技术,2022,55(6):771-775. 被引量：2
8李珊,陈妙苗,郑晨.一种基于图挖掘的LDA改进算法[J].计算机与现代化,2022(7):61-66. 被引量：2
9高博.基于类别空间约束的弱监督卷积神经网络特征学习算法[J].电子测量技术,2022,45(5):94-99.
10韩毅,乔林波,李东升,廖湘科.知识增强型预训练语言模型综述[J].计算机科学与探索,2022,16(7):1439-1461. 被引量：3

计算机应用

2022年第S01期

浏览历史

内容加载中请稍等...

BERT-Single:半监督的话题检测与追踪方法被引量：1

参考文献8

二级参考文献70

共引文献54

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

BERT-Single:半监督的话题检测与追踪方法 被引量：1

参考文献8

二级参考文献70

共引文献54

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

BERT-Single:半监督的话题检测与追踪方法被引量：1