基于加权隐含狄利克雷分配模型的新闻话题挖掘方法被引量：14

News topic mining method based on weighted latent Dirichlet allocation model

下载PDF

导出

摘要针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。 To solve the problems such as low accuracy and poor interpretability of traditional news topic mining, a new method was proposed based on weighted Latent Dirichlet Allocation （LDA） that combined with the information structure characters of the news. Firstly, the vocabulary weights were improved from different angles and the composite weights were built, the more expressive words were got by extending the process of feature items generated by the LDA model. Secondly, the Category Distinguish Word （CDW） method was used to optimize the word order of the generated result, which could reduce the noise and the ambiguity of the topics and improve the interpretability of the topics. Finally, according to the mathematical characteristics of the probability distribution model of the topics, the topics were quantified in terms of the contribution degree from the documents to the topics and the topics weight probability to get the hot topics. The simulation results show that the false negative rate and false positive rate of the weighted LDA model drop by an average of 1.43% and O. 16% compared with the traditional LDA model, and the minimum standard price drops by an average of 2.68%. It confirms the feasibility and effectiveness of this method.

作者李湘东巴志超黄莉

机构地区武汉大学信息管理学院武汉大学信息资源研究中心武汉大学武汉大学图书馆

出处《计算机应用》 CSCD 北大核心 2014年第5期1354-1359,共6页 journal of Computer Applications

关键词新闻报道话题挖掘加权隐含狄利克雷分配模型类别区分词词序优化 news report topic mining weighted Latent Dirichlet Allocation （LDA） model Category Distinguish Word （CDW） order optimization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
2胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
3LIM C S,LEE K J,KIM G C.Multiple sets of features for automatic genre classification of Web documents[J].Information Processing and Management,2005,41(5):1263-1276.
4张永奎,李红娟.基于类别关键词的突发事件新闻文本分类方法[J].计算机应用,2008,28(B06):139-140. 被引量：11
5洪宇,张宇,范基礼,刘挺,李生.基于子话题分治匹配的新事件检测[J].计算机学报,2008,31(4):687-695. 被引量：26
6雷震,吴玲达,雷蕾,黄炎焱.初始化类中心的增量K均值法及其在新闻事件探测中的应用[J].情报学报,2006,25(3):289-295. 被引量：25
7DUMAIS S T,FURNAS G W,LANDAUER T K,et al.Using latent semantic analysis to improve access to textual information[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,1988:281-285.
8HOFMANN T.Probabilistic latent semantic indexing[C]//Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,1999:50-77.
9BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
10BLEI D M,LAFFERTY J D.A correlated topic model of science[J].The Annals of Applied Statistics,2007,1(1):17-35.

二级参考文献122

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
6杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2
7周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
8吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
9于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
10孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22

共引文献413

1王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
2刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：2
3熊奥,高畅,赵明辉,张玲玲.基于知识图谱的核电设备健康管理知识建模与分析[J].科技促进发展,2021,17(4):640-649. 被引量：10
4骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
5王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
6蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
7黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
10何顺兰,王兴起,胡宏宇,姜明.多媒体舆情分析系统设计与研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):173-176. 被引量：2

同被引文献142

1万小军,杨建武.在线新闻主题检测系统的设计与应用[J].华南理工大学学报（自然科学版）,2004,32(z1):42-46. 被引量：7
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
4黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
5徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报（社会科学版）,2007(1):89-93. 被引量：141
6HanJ,KamberM,PeiJ.数据挖掘:概念与技术[M].第三版.范明,孟小峰译.北京:机械工业出版社,2012:211-220.
7Yang Y, Liu X. A Re-examination of Text Categorization Methods [C]. In: Proceedings of the 22rid Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1999: 42-49.
8Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
9Chen M, Jin X, Shen D. Short Text Classification Improved by Learning Multi-granularity Topics [C]. In: Proceedings of the 22nd International Joint Conference on Artificial Intelligence. AAAI Press, 2011: 1776-1781.
10Ni X, Sun J T, Hu J, et al. Cross Lingual Text Classification by Mining Multilingual Topics from Wikipedia [C]. In: Proceedings of the 4th ACM International Conference on Web Search and Data Mining. ACM, 2011: 375-384.

引证文献14

1李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
2郭鑫,陈千,向阳.基于特征本体的文本流主题检测研究[J].计算机应用研究,2016,33(2):396-399.
3巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量方法研究[J].情报学报,2016,35(2):197-207. 被引量：26
4潘大胜,陈志福,覃焕昌.基于模糊关联迭代分区的挖掘优化方法研究[J].科学技术与工程,2016,16(24):235-238. 被引量：8
5孙锐,郭晟,姬东鸿.融入事件知识的主题表示方法[J].计算机学报,2017,40(4):791-804. 被引量：15
6李湘东,丁丛,高凡.基于复合加权LDA模型的书目信息分类方法研究[J].情报学报,2017,36(4):352-360. 被引量：14
7袁健,刘瑜.基于混合式的社区问答答案质量评价模型[J].计算机应用研究,2017,34(6):1708-1712. 被引量：5
8王志峰,冯锡炜,贾强,朱睿,秦航.多特征神经网络微博转发预测[J].辽宁石油化工大学学报,2017,37(6):47-50.
9陈兴蜀,马晨曦,王文贤,高悦,王海舟.基于改进的ccLDA多数据源热点话题检测模型[J].工程科学与技术,2018,50(2):141-147. 被引量：4
10万红新,彭云.语义约束和时间关联LDA的社交媒体主题词链提取[J].小型微型计算机系统,2018,39(4):742-747. 被引量：3

二级引证文献117

1邓珍荣,汤园钰,杨睿,张永林.基于关键词与指针生成网络的摘要生成算法[J].计算机系统应用,2022,31(11):246-253. 被引量：2
2杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
3李佳欣,苏曙光.基于BERT的图像和文本多模态融合分类模型[J].计算机应用,2023,43(S01):39-44. 被引量：3
4亮亮.在海底安个家[J].大自然探索,2000(6):69-72.
5许能闯,袁健,高喜龙.含代码的IT社区答案质量评价模型[J].小型微型计算机系统,2019,40(1):158-163. 被引量：1
6余本功,王龙飞,陈杨楠,杨颖.基于文献多属性加权的共词分析方法研究[J].情报科学,2019,37(1):122-128. 被引量：5
7巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量方法研究[J].情报学报,2016,35(2):197-207. 被引量：26
8李湘东,巴志超,高凡.数字文本自动分类中特征语义关联及加权策略研究综述与展望[J].现代图书情报技术,2016(9):17-26. 被引量：5
9许海云,董坤,刘春江,王超,王振蒙.文本主题识别关键技术研究综述[J].情报科学,2017,35(1):153-160. 被引量：12
10李湘东,丁丛,高凡.基于复合加权LDA模型的书目信息分类方法研究[J].情报学报,2017,36(4):352-360. 被引量：14

1余峰,余正涛,杨剑锋,郭剑毅,严馨.基于主题信息的项目评审专家推荐方法[J].计算机工程,2014,40(6):201-205. 被引量：6
2周奇年,张振浩,徐登彩.用于中文文本分类的基于类别区分词的特征选择方法[J].计算机应用与软件,2013,30(3):193-195. 被引量：8
3杨赛,赵春霞.基于隐含狄利克雷分配模型的图像分类算法[J].计算机工程,2012,38(14):181-183. 被引量：9
4任伟建,山茂泉,谢锋,王文东.基于粒子滤波和贝叶斯估计的目标跟踪[J].大庆石油学院学报,2008,32(3):67-70. 被引量：1
5李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
6普及公共云服务面临3大障碍[J].通讯世界,2011(8):49-49.
7黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
8周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
9刘俞.无线传感器网络中基于复合权值的质心定位改进算法[J].辽东学院学报（自然科学版）,2012,19(1):31-35. 被引量：5
10王文帅,杜然,程耀东,陈刚.一种面向大规模微博数据的话题挖掘方法[J].计算机工程与应用,2014,50(22):32-37. 被引量：4

计算机应用

2014年第5期

浏览历史

内容加载中请稍等...

基于加权隐含狄利克雷分配模型的新闻话题挖掘方法被引量：14

参考文献26

二级参考文献122

共引文献413

同被引文献142

引证文献14

二级引证文献117

相关作者

相关机构

相关主题

浏览历史

基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 被引量：14

参考文献26

二级参考文献122

共引文献413

同被引文献142

引证文献14

二级引证文献117

相关作者

相关机构

相关主题

浏览历史

基于加权隐含狄利克雷分配模型的新闻话题挖掘方法被引量：14