结合词向量和聚类算法的新闻评论话题演进分析被引量：15

Analysis on topic evolution of news comments by combining word vector and clustering algorithm

下载PDF

导出

摘要话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。 The analysis of topic evolution is regarded as the mining of topic content evolving with the time. This article, based on the hypothesis that topic content may be embodied by key words, adopt word2vec for the training of 750 thousand pieces of news and micro-blog texts to establish the model of word vector. The text information flow is applied to the model and all word vectors by time series are acquired. K-means is used to cluster the word vectors before the key words are drawn and the analysis of topic evolution is visualized. By comparing the effect of the word vector model with those of PLSA or LDA topic models on drawing topic, the results show that the former is more effective than the latter two models. In addition, the collection of abundant and varied data can facilitate the training of the word vector model with better generalization ability and the investigation on real-time analysis of topic evolution.

作者林江豪周咏梅阳爱民王伟

机构地区广东外语外贸大学语言工程与计算实验室广东外语外贸大学思科信息学院

出处《计算机工程与科学》 CSCD 北大核心 2016年第11期2368-2374,共7页 Computer Engineering & Science

基金国家社科基金项目(12BYY045) 广东省哲学社会科学"十二五"规划项目(GD15YTS01)

关键词话题演进 word2vec PLSA LDA topic evolution word2vec PLSA LDA

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1周泓,刘金岭,王新功.基于短文本信息流的回顾式话题识别模型[J].中文信息学报,2015,29(1):111-117. 被引量：3
2楚克明,李芳.基于LDA模型的新闻话题的演化[J].计算机应用与软件,2011,28(4):4-7. 被引量：29
3王飞跃.知识产生方式和科技决策支撑的重大变革——面向大数据和开源信息的科技态势解析与决策服务[J].中国科学院院刊,2012,27(5):527-537. 被引量：71
4林萍,黄卫东.基于LDA模型的网络突发事件话题演化路径研究[J].情报科学,2014,32(10):20-23. 被引量：11
5韩忠明,陈妮,乐嘉锦,段大高,孙践知.面向热点话题时间序列的有效聚类算法研究[J].计算机学报,2012,35(11):2337-2347. 被引量：31
6林江豪,周咏梅,阳爱民,陈昱宏,陈晓帆.基于概率潜在语义分析的群体情绪演进分析[J].计算机应用,2015,35(10):2747-2751. 被引量：4
7曹建平,王晖,夏友清,乔凤才,张鑫.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886. 被引量：15
8周亚东,刘晓明,杜友田,管晓宏,刘霁.一种网络话题的内容焦点迁移识别方法[J].计算机学报,2015,38(2):261-271. 被引量：14
9张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25

二级参考文献139

1李爱国,覃征.在线分割时间序列数据[J].软件学报,2004,15(11):1671-1679. 被引量：27
2王飞跃,王珏.情报与安全信息学研究的现状与展望[J].中国基础科学,2005,7(2):24-29. 被引量：18
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4詹艳艳,徐荣聪,陈晓云.基于斜率提取边缘点的时间序列分段线性表示方法[J].计算机科学,2006,33(11):139-142. 被引量：46
5赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
6杨一鸣,潘嵘,潘嘉林,杨强,李磊.时间序列分类问题的算法比较[J].计算机学报,2007,30(8):1259-1266. 被引量：40
7化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
8Blei B D,Ng A,Jordan M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003 (3) :933 - 1022.
9Xuerui Wang, Andrew MeCallum. Topic over time: A Non-Markov Continuous-Time Model of Topical Trends [ C ]//ACM SIGKDD - 2006,424 - 433.
10David Hall, Daniel Jurafsky, Christopher D Manning. Studying the History of Ideas Using Topic Modeh [ C ]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, 2008:363 - 371.

共引文献188

1刘玉文,王凯.面向地域的网络话题识别方法[J].数据分析与知识发现,2020,4(2):173-181. 被引量：2
2化柏林,陈丹蕾,汪大锟.数据中台在科技情报中的应用[J].情报学进展,2022(1):265-314.
3李彦泽.开源科技情报技术体系构建[J].情报科学,2023,41(12):65-74. 被引量：2
4糟玉庆,赵捧未,尹丽英,丁献峰.面向政府宏观科技决策的科技管理数据服务模式构建[J].科技管理研究,2023,43(2):167-176. 被引量：3
5胡筱彤.大数据在商业银行中的应用探究[J].科技经济导刊,2019,0(33):20-20.
6朱永财,吴焕斌.大数据时代科技情报服务的挑战与思考[J].中国科技纵横,2018,0(15):213-214. 被引量：1
7吴炳强.新军事体育课课程教学对体育教员的挑战及应对[J].运动,2013(22):79-80. 被引量：1
8王飞跃.从社会计算到社会制造:一场即将来临的产业革命[J].中国科学院院刊,2012,27(6):658-669. 被引量：78
9李保利,杨星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743. 被引量：29
10朱东华,张嶷,汪雪锋,李兵,黄颖,马晶,许幸荣,杨超,朱福进.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013,34(4):172-180. 被引量：149

同被引文献140

1王伟斌,李敬华,于琦,王俊文,张润顺,黄燕,王映辉.基于古代医案的郁证用药规律分析[J].中国实验方剂学杂志,2020,0(5):162-167. 被引量：14
2吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
3李瑞.城市旅游意象及其构成要素分析[J].西北大学学报（自然科学版）,2004,34(4):494-498. 被引量：48
4许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
6于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
8张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
9LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
10章成志,师庆辉,薛德军.基于样本加权的文本聚类算法研究[J].情报学报,2008,27(1):42-48. 被引量：10

引证文献15

1贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：20
2蒙晓燕,殷雁君.基于word2vec的中文歌词关键词提取算法[J].内蒙古师范大学学报（自然科学汉文版）,2018,47(2):137-140. 被引量：3
3吉久明,施陈炜,李楠,康健.基于GloVe词向量的“技术——应用”发现研究[J].现代情报,2019,39(4):13-22. 被引量：5
4顾渐萍,王远斌,刘贵文,田宗舜.基于文本大数据的游客旅游意象感知挖掘研究——以重庆市为例[J].现代城市研究,2019,34(12):117-125. 被引量：18
5徐菲菲,冯东升.文本词向量与预训练语言模型研究[J].上海电力大学学报,2020,36(4):320-328. 被引量：7
6刘璐,蔡永明.基于语义加权的引文网络社区划分研究[J].新世纪图书馆,2021(1):50-56. 被引量：5
7屈丹丹,杨涛,胡孔法.NLP在中医医案症状信息自动化抽取中的应用研究[J].软件导刊,2021,20(2):44-48. 被引量：5
8陈翔,黄璐,倪兴兴,刘家润,曹晓丽,王长天.基于动态语义网络分析的主题演化路径识别研究[J].情报学报,2021,40(5):500-512. 被引量：20
9刘勇,韩清云.基于主题与多元情感融合的网络舆情动态分析方法研究[J].竞争情报,2021,17(5):10-18. 被引量：4
10Kai WANG,Fuzhi WANG.Topic-Feature Lattices Construction and Visualization for Dynamic Topic Number[J].Journal of Systems Science and Information,2021,9(5):558-574. 被引量：1

二级引证文献114

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：2
2王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
4李婷.构建适配人工智能辅助价值计算的核心价值观裁判说理机制[J].法律方法,2022,28(2):260-279.
5李茂胜,王天一.基于多特征融合的羊养殖问句相似度评价方法[J].智能计算机与应用,2021,11(12):22-27.
6徐馨韬,柴小丽,谢彬,沈晨,王敬平.基于改进TextRank算法的中文文本摘要提取[J].计算机工程,2019,45(3):273-277. 被引量：24
7王闻慧.基于谷歌翻译及Doc2vec的中英句子相似度计算[J].电脑知识与技术,2019,15(5X):224-227.
8李晓峰,马静,李驰,朱恒民.基于XGBoost模型的电商商品品名识别算法研究[J].数据分析与知识发现,2019,3(7):34-41. 被引量：6
9肖元君,吴国文.基于Gensim的摘要自动生成算法研究与实现[J].计算机应用与软件,2019,36(12):131-136. 被引量：15
10李广建,陈瑜,张庆芝.新中国70年现代图书情报技术研究与实践[J].图书馆杂志,2019,38(11):4-20. 被引量：9

1王健,梁灿.城域传送网SDN化的演进分析[J].互联网天地,2014(11):13-17. 被引量：1
2张饶,武晓岛,谢学军.透过专利看微处理器的技术发展(四)——中国专利中的多核技术演进分析[J].中国集成电路,2009,18(4):83-89. 被引量：1
3华山.基于Anycast架构DNS进行流量清洗部署方案的演进分析[J].电信技术,2013(8):68-71.
4阮科,冯明,朱永庆,邹洁.下一代互联网体系架构演进分析[J].电信科学,2014,30(S2):50-53. 被引量：4
5孙鹏飞.城域传送网目标网络推导与演进探析[J].工程建设与设计,2017(2):179-181.
6林江豪,周咏梅,阳爱民,陈昱宏,陈晓帆.基于概率潜在语义分析的群体情绪演进分析[J].计算机应用,2015,35(10):2747-2751. 被引量：4
7孙哲.网络管理系统体系结构的演进分析[J].计算机与网络,2015,41(16):60-62. 被引量：1
8王瑾瑶.以太网协议模型的演进分析[J].机械管理开发,2013,28(3):106-107. 被引量：3
9邱江涛,唐常杰,乔少杰,李太勇.Web新闻流的增量演进分析[J].计算机科学,2009,36(3):193-195.
10刘翠青.我国中学历史课程知识的演进分析[J].课程教学研究,2014(10):77-80.

计算机工程与科学

2016年第11期

浏览历史

内容加载中请稍等...

结合词向量和聚类算法的新闻评论话题演进分析被引量：15

参考文献9

二级参考文献139

共引文献188

同被引文献140

引证文献15

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

结合词向量和聚类算法的新闻评论话题演进分析 被引量：15

参考文献9

二级参考文献139

共引文献188

同被引文献140

引证文献15

二级引证文献114

相关作者

相关机构

相关主题

浏览历史

结合词向量和聚类算法的新闻评论话题演进分析被引量：15