面向微博热点事件的话题检测及表述方法研究被引量：15

Research on topic detection and expression method for Weibo hot events

下载PDF

导出

摘要针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 Aiming at the problem that Weibo text data sparseness is difficult to detect hot topics,this paper proposed a topic detection model based on IDLDA-ITextRank. Firstly,this paper constructed an IDLDA topic text clustering model by introducing the Weibo time series features and word frequency features,and used the model to cluster the text of the same topic into a text set( TS). Secondly,by using the similarity calculation method which combining editing distance and word vector,it constructed the ITextRank text summary and keyword extraction model to extract the summaries and keywords of the TS. Finally,it used the mutual information of words and left-right information entropy to convert the extracted keywords into key topic phrases,and combined the key topic phrases and summaries to express the topic content. Experiments show that IDLDA model has better clustering effect on topic text than the traditional BTM model and LDA model. The key topic phrases and summaries are better than keywords to express and understand the topics of Weibo.

作者周炜翔张仰森张良 Zhou Weixiang;Zhang Yangsen;Zhang Liang(Institute of Intelligent Information Processing,Beijing Information Science&Technology University,Beijing 100101,China)

机构地区北京信息科技大学智能信息处理研究所

出处《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61772081)

关键词文本聚类 IDLDA-ITextRank模型话题抽取话题表述 text clustering IDLDA-ITextRank model topic extraction topic expression

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49. 被引量：82
2王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
3潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
4李慧,王丽婷.基于词项热度的微博热点话题发现研究[J].情报科学,2018,36(4):45-50. 被引量：16
5张云伟,宋安军.基于K-Means改进算法在微博话题发现中的应用研究[J].计算机系统应用,2016,25(10):308-311. 被引量：4
6曹文琴,黄玉军,涂国平.微博话题传播的时间网络影响力模型研究[J].图书情报工作,2016,60(1):91-97. 被引量：9
7余珊珊,苏锦钿,李鹏飞.基于改进的TextRank的自动摘要提取方法[J].计算机科学,2016,43(6):240-247. 被引量：41
8崔凯,周斌,贾焰,梁政.一种基于LDA的在线主题演化挖掘模型[J].计算机科学,2010,37(11):156-159. 被引量：34
9李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：34
10刘红兵,李文坤,张仰森.基于LDA模型和多层聚类的微博话题检测[J].计算机技术与发展,2016,26(6):25-30. 被引量：15

二级参考文献175

1张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
2李锋,周凯波,冯珊.基于统计特征的属性相似度计算模型[J].华中科技大学学报（自然科学版）,2005,33(6):80-82. 被引量：8
3于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
4张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
5石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
6何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
7李锋,魏莹.分布式环境下基于语义相似的案例检索[J].计算机工程,2007,33(9):28-30. 被引量：8
8Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999,50-57.
9David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3: 993-1022.
10T. Griffiths,M. Steyvers. A probabilistic approach to semantic representation [C]//Proceedings of the 24th Annual Conference of the Congnitive Science Society. Mahwah, NJ : Erlbaum, 2002,381-386.

共引文献328

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2王劲,孙瑞英.主题聚类视域下地方公共数据管理政策完备性分析[J].知识管理论坛,2024(1):65-78.
3李磊,李梓阁.基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例[J].吉首大学学报（社会科学版）,2021,42(2):23-34. 被引量：17
4金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
5单斌,李芳.基于种子文档LDA话题的演化研究[J].现代图书情报技术,2011(7):104-109. 被引量：6
6胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154. 被引量：29
7何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
8贺亮,李芳.基于话题模型的科技文献话题发现和趋势分析[J].中文信息学报,2012,26(2):109-115. 被引量：26
9姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
10李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.

同被引文献182

1祝建华.控制实验——传播学研究方法之三[J].新闻大学,1986(12):98-101. 被引量：5
2祝建华.实地调查——传播学研究方法之一[J].新闻大学,1985(9):82-85. 被引量：3
3祝建华.内容分析——传播学研究方法之二[J].新闻大学,1985(10):97-100. 被引量：16
4于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
5吴少华,崔鑫,胡勇.基于SNA的网络舆情演变分析方法[J].四川大学学报（工程科学版）,2015,47(1):138-142. 被引量：13
6张弘政.从技术的二重性看技术异化的必然性与可控性[J].科学技术与辩证法,2005,22(5):63-65. 被引量：24
7赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
8谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007,25(7):1046-1051. 被引量：48
9洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
10徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65

引证文献15

1张新香,赵彩霞.影响电影微博互动效果的隐藏主题探究方法及应用[J].知识管理论坛,2020(5):283-291.
2李海明.基于SSDKmeans算法的微博热点话题发现研究[J].软件导刊,2019,18(9):173-175. 被引量：1
3张龙翔,曹云鹏,王海峰.面向大数据复杂应用的GPU协同计算模型[J].计算机应用研究,2020,37(7):2049-2053. 被引量：3
4李静,戴丽娜.基于整数线性模拟的多样性关键信息抽取仿真[J].计算机仿真,2020,37(10):365-368.
5王胜,张仰森,张雯,蒋玉茹,张睿.基于SL-LDA的领域标签获取方法[J].计算机科学,2020,47(11):95-100. 被引量：2
6席耀一,高鑫,王小明,云建飞.基于ETM模型的中亚国家“一带一路”网络舆情热点检测[J].情报杂志,2020,39(11):82-89. 被引量：1
7秦贺然,王东波.数字人文下的先秦古汉语关键词抽取应用——以《春秋经传》为例[J].图书馆杂志,2020,39(11):97-105. 被引量：10
8薛涛,郭莹,胡伟华.基于LDA2Vec联合训练的热点主题识别方法[J].西安工程大学学报,2021,35(4):95-101. 被引量：3
9陈述,习俊博,王建平,陈云.水电工程施工安全隐患关联规则挖掘[J].中国安全科学学报,2021,31(8):75-82. 被引量：12
10徐菲菲,陈赛红.中文文本主题聚类算法研究综述[J].上海电力大学学报,2021,37(6):613-619. 被引量：3

二级引证文献40

1朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
2张京坤,王怡怡.基于Spark的均值漂移算法在网络舆情聚类中的应用[J].软件导刊,2020,19(9):190-195. 被引量：3
3黄坤.基于GPU并行计算的石油数据管理系统研究[J].电子技术与软件工程,2021(3):175-176.
4杨琳,徐慧英,马文龙.基于边界条件GAN的不平衡大数据模糊分类[J].西南师范大学学报（自然科学版）,2021,46(7):97-102. 被引量：3
5周雪晴,吴鹏.基于嵌入式主题模型的中美疫情政策主题发现研究[J].情报理论与实践,2022,45(5):173-180. 被引量：4
6郭润平,陈保国,熊桂芳.基于大数据的科研热点分析系统研究[J].自动化与仪器仪表,2022(5):136-141.
7钱真坤,周思吉.基于自适应指数蝙蝠和SAE的并行大数据分类[J].西南师范大学学报（自然科学版）,2022,47(6):8-14.
8林海香,卢冉,陆人杰,李新琴,赵正祥,白万胜.融合BiLSTM-CBA组合模型的高铁车载设备故障诊断[J].中国安全科学学报,2022,32(6):79-86. 被引量：3
9陈述,朱丽萍,陈云,郑霞忠,纪勤.基于复杂网络的水电工程施工安全隐患时序特性[J].中国安全科学学报,2022,32(8):61-66. 被引量：1
10施龙青,赵威,刘天浩,翟培合,王钊,吕昌兴.煤矿井田构造复杂程度定量评价研究[J].煤炭工程,2022,54(8):142-148. 被引量：2

1王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术,2019,43(12):76-80. 被引量：20
2张辉.基于“核心话题”的小学英语教学实践研究[J].校园英语,2019,0(48):128-128.
3李红.问题链在英语书面表达教学中的应用[J].课程教材教学研究（中教研究）,2019,0(7):25-27.
4张金娣.批判性思维能力在初中英语阅读教学中的培养[J].科学咨询,2019,0(26):87-87.
5O. R. AL-Hamdan,A. A. Saker.Studying the Role Played by Evaporative Cooler on the Performance of GE Gas Turbine Existed in Shuaiba North Electric Generator Power Plant[J].Energy and Power Engineering,2013,5(6):391-400.
6郑策,尤佳莉.电影推荐系统中基于图的协同过滤算法[J].计算机与现代化,2019,0(11):38-43. 被引量：1
7陈俊帅,张颖,占涛涛,何茂刚.癸酸乙酯的液相音速测量与理论估算[J].化工学报,2019,70(A02):31-36.
8钱志森,黄瑞章,魏琴,秦永彬,陈艳平.半监督语义动态文本聚类算法[J].电子科技大学学报,2019,48(6):803-808. 被引量：1
9谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
10俞鸿飞,王坤,殷明明,段湘煜,张民.区分冗余序列的抽象文本摘要[J].厦门大学学报（自然科学版）,2019,58(6):900-906. 被引量：1

计算机应用研究

2019年第12期

浏览历史

内容加载中请稍等...

面向微博热点事件的话题检测及表述方法研究被引量：15

参考文献15

二级参考文献175

共引文献328

同被引文献182

引证文献15

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

面向微博热点事件的话题检测及表述方法研究 被引量：15

参考文献15

二级参考文献175

共引文献328

同被引文献182

引证文献15

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

面向微博热点事件的话题检测及表述方法研究被引量：15