基于BTM和加权K-Means的微博话题发现被引量：2

Topic Discovery in Microblog Based on BTM and Weighting K-Means

下载PDF

导出

摘要为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。 In order to adapt to special features of microblogging data,such as short texts,low word frequency,and lack of semantic expression,improve accuracy of topic discovery,and help users obtain useful information,a method based on BTM and weighting K-Means is proposed to achieve topic discovery.Firstly,faced with the problem of data sparsity,the text model is built based on the BTM model to obtain the topic words.Secondly,aimed at defects of the traditional K-Means algorithm itself,the weighting K-Means algorithm is proposed to obtain microblogging topics.Finally,experiments are conducted to validate the method of this paper.The experimental results show that the BTM and weighting K-Means method can solve problems of high dimensionality and sparsity of microblogging data,and it improves the accuracy and effectiveness of topic discovery.

作者陈凤蒙祖强 CHEN Feng;MENG Zuqiang(School of Computer,Electronics and Information,Guangxi University,Nanning Guangxi 530004,China)

机构地区广西大学计算机与电子信息学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2019年第3期71-78,共8页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金(61762009)

关键词 BTM模型加权K-Means 微博数据话题发现 biterm topic model(BTM) weighting K-Means microblogging data topic discovery

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1谢昊,江红.一种面向微博主题挖掘的改进LDA模型[J].华东师范大学学报（自然科学版）,2013(6):93-101. 被引量：27
2张佳明,王波,唐浩浩,李天彩.基于Biterm主题模型的无监督微博情感倾向性分析[J].计算机工程,2015,41(7):219-223. 被引量：13
3王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
4刘少鹏,印鉴,欧阳佳,黄云,杨晓颖.基于MB-HDP模型的微博主题挖掘[J].计算机学报,2015,38(7):1408-1419. 被引量：31
5黄发良,冯时,王大玲,于戈.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40(4):872-888. 被引量：63
6谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(1):155-158. 被引量：17
7刘泽锦,王洁.同主题词短文本分类算法中BTM的应用与改进[J].计算机系统应用,2017,26(11):213-219. 被引量：4
8李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13

二级参考文献98

1袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
2ZHAO W X, HE J, YAN H F, et al. Comparing Twitter and traditional media using topic models[J]. Advances in Information Retrieval, Proceedings. 2011, 6611:338- 349.
3NOORDHUIS P, HEIJKOOP M, LAZOVIK A. Mining Twitter in the cloud: a case study[C]. Cloud Computing (CLOUD), 2010. IEEE 3rd International Conference. 2010 July, 107-114.
4KANG J H, LERMAN K, PLANGPRASOPCHOK A. Analyzing mieroblogs with affinity propagation [C]//Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010: 67-70.
5BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
6RAMAGE D, DUMAIS S, LIEBLING D. Characterizing microblogs with topic models[C]. ICWSM, 2010..130- 137.
7ZHANG H P, YU H K, XIONG D Y, et al. HHMM-based chinese lexical analyzer ICTCLAS[C]//Proc of the 2nd SigHan Workshop. 2003:184-187.
8DEERWESTER S, DUMAIS S, LANDAUER T. Indexing by latent semantic analysis[J]. Journal of the Ameri- can Society of Information Science. 1990, 41 (6) :391-407.
9HOFMANN T. Probabilistic latent semantic indexing[C]//Proc of the 22nd Annual Int ACM SIGIR Conf on Re- search and Development in Information Retrieval. New York: ACM, 1999:50 -57.
10BLEI D M. Probabilistie topic models[C]. Communications of the ACM. 2012, 4:77-84.

共引文献177

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
3王勇,马钰,徐胜华,王艳东,罗安,刘万增,狄琳.兴趣点推荐方法研究进展与展望[J].测绘科学,2023,48(12):217-224. 被引量：1
4姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
5童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
6张礼星,唐湘华,唐胜,章克昌.里氏木霉纤维素酶在大曲酒丢糟中的应用[J].酿酒科技,2000(3):52-53. 被引量：12
7王勇,王超,程凯.基于地理标签的LBSN链接预测模型[J].计算机系统应用,2018,27(12):227-233.
8朱映雪,黄瑞章,马灿.一种具有新主题偏向性的短文本动态聚类方法[J].山东大学学报（工学版）,2018,48(6):8-18. 被引量：1
9王文帅,杜然,程耀东,陈刚.一种面向大规模微博数据的话题挖掘方法[J].计算机工程与应用,2014,50(22):32-37. 被引量：4
10华绿绿,黄廷磊,刘久云,夏威.一种适用于微博主题提取的SMLDA模型[J].桂林电子科技大学学报,2015,35(3):241-244.

同被引文献29

1刘嘉唯,高慧颖,崔立新,朱珈印,吴奕萱.微信社交网络顾客感知服务质量评价指标体系研究[J].信息与管理研究,2019,0(4):58-69. 被引量：5
2郭小安,王国华.网络群体性事件的概念辨析及指标设定[J].情报杂志,2012,31(2):6-11. 被引量：28
3李慧,王丽婷.基于话题标签的微博热点话题演化研究[J].情报科学,2019,37(1):30-36. 被引量：12
4范关荣,杜天翼,王彤,俞军,邹冬冬,陈淑雯,薛迪.上海市公立医院病人满意度状况和影响因素研究[J].中国医院管理,2015,35(12):13-16. 被引量：13
5陈福集,马梅兰.网络舆情事件的话题演化分析——以成都女司机为例[J].情报杂志,2016,35(5):58-64. 被引量：6
6夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：16
7佘维军,刘子平,杨卫芳.基于改进LDA主题模型的产品特征抽取[J].计算机与现代化,2016,0(11):1-6. 被引量：7
8倪丽萍,刘小军,马驰宇.基于LDA模型和AP聚类的主题演化分析[J].计算机技术与发展,2016,26(12):6-11. 被引量：7
9刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(2):16-21. 被引量：41
10刘金硕,彭映月,章岚昕,陈煜森,邓娟.网络食品安全问题话题发现的LDA-K-means算法[J].武汉大学学报（工学版）,2017,50(2):307-310. 被引量：8

引证文献2

1曾鸣,姜慧玲.网络群体性事件微博舆情主题演化研究[J].信息与管理研究,2021,6(2):28-40. 被引量：2
2高慧颖,公孟秋,于思佳.基于改进BTM模型的医疗服务质量因素识别[J].北京理工大学学报,2022,42(11):1167-1174. 被引量：5

二级引证文献7

1陈琳,陈涛.基于LDA模型和信任维度的在线短租用户信任感知空间分布研究——基于Airbnb北京地区数据[J].中国发展,2021,21(5):53-61. 被引量：3
2尚晓燕.基于话题标签的微博舆情热点挖掘系统设计[J].现代电子技术,2023,46(2):70-74.
3张栋科,李金金,吴南中.基于BTM的人工智能赋能职业技能习得的伦理风险[J].现代教育技术,2023,33(7):25-34. 被引量：1
4刘爱琴,董婕,梁雅琨.基于词对主题模型的题名信息自动分类方法研究[J].晋图学刊,2023(4):29-38.
5陈鹤,文松.基于随机占优准则的医疗服务质量提升研究[J].重庆邮电大学学报（社会科学版）,2024,36(3):126-137.
6张书涛,杨志强,苏建宁,周爱民.用户评论异质情感的主题聚类仿真[J].控制与决策,2024,39(11):3645-3654.
7夏文欣,于晓胜.基于在线评论挖掘的预制菜消费者情感分析与需求研究[J].河南牧业经济学院学报,2024,37(6):21-28.

1陈小雪,尉永清,任敏,孟媛媛.基于萤火虫优化的加权K-means算法[J].计算机应用研究,2018,35(2):466-470. 被引量：43
2刘明波,胡朝举.层次聚类结合空间金字塔的图像分类[J].计算机应用研究,2018,35(11):3476-3478. 被引量：4
3金福喜,袁权威,秦帅帅.基于GIS和K-means聚类方法的滑坡气象预警模型[J].金属矿山,2018,47(6):162-166. 被引量：5
4黄畅,郭文忠,郭昆.面向微博热点话题发现的改进BBTM模型研究[J].计算机科学与探索,2019,13(7):1102-1113. 被引量：4
5温廷新,李洋子,孙静霜.基于多因素特征选择与AFOA/K-means的新闻热点发现方法[J].数据分析与知识发现,2019,3(4):97-106. 被引量：5
6王贺,张秀梅.智能教学系统中动态学生模型构建[J].科技资讯,2019,17(9):15-17.
7伍健,邓梦薇,缪建群.平均误差向量加速的K-Means色彩量化方法[J].计算机工程与应用,2019,55(12):188-193. 被引量：2
8徐静,张文学.药品安全话题发现技术研究[J].软件导刊,2019,18(5):151-154.
9王学军,李有红,李炽平.基于密度自适应聚类数的社区发现谱方法[J].计算机技术与发展,2019,29(5):81-85.
10周捷,李健,马秋瑞,黄晓杰.基于改进层次分析法的特殊体型样板识别[J].纺织学报,2019,40(5):124-130. 被引量：6

广西师范大学学报（自然科学版）

2019年第3期

浏览历史

内容加载中请稍等...

基于BTM和加权K-Means的微博话题发现被引量：2

参考文献8

二级参考文献98

共引文献177

同被引文献29

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于BTM和加权K-Means的微博话题发现 被引量：2

参考文献8

二级参考文献98

共引文献177

同被引文献29

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于BTM和加权K-Means的微博话题发现被引量：2