基于LDA模型的新闻话题分类研究被引量：1

Study on Classification of News Topic Based on LDA Model

下载PDF

导出

摘要针对部分网站中新闻话题没有分类或者分类不清等问题，将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模，根据贝叶斯标准方法选择最佳主题数，采用Gibbs抽样间接计算出模型参数，得到数据集的主题概率分布；然后根据JS距离计算文档之间的语义相似度，得到相似度矩阵；最后利用增量文本聚类算法对新闻文档聚类，将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。 The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters;and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance;finally, the incremen-tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.

作者谈成访汪材印

机构地区宿州学院信息工程学院宿州学院智能信息处理实验室

出处《电脑知识与技术》 2014年第6期3795-3797,3823,共4页 Computer Knowledge and Technology

基金安徽省高校省级自然科学研究重点项目（NO.KJ2014A250）宿州学院校级科研平台开放课题项目（NO.2013YKF14）安徽省大学生创新创业训练计划项目（NO.AH201310379082）

关键词 LDA 文本聚类新闻话题分类主题 Latent Dirichlet Allocation Text Clustering News Topic Classification Topic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：55
2吕楠,罗军勇,刘尧,杨慧洁.基于话题三层结构模型的话题演化分析算法[J].计算机工程,2009,35(23):71-72. 被引量：10
3赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18
4谈成访,汪材印,张亚康.基于LDA模型的中文微博热点话题发现[J].宿州学院学报,2014,29(4):71-73. 被引量：6

二级参考文献15

1于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
3伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
4Allan J. Topic Detection and Tracking: Event-based Information Organization[M]. [S.l.]: KluwerAcademic Publishers, 2002: 1-16.
5Ault T G, Yang Yiming. Information Filtering in TREC-9 and TDT-3: A Comparative Analysis[J]. Information Retrieval, 2002, 5(2/3): 159-187.
6Wei Chih-Ping, Chang Yu-Hsiu. Discovering Event Evolution Patterns from Document Sequences[J]. IEEE Transactions on Systems, Man, and Cybernetics Part A: Systems and Humans, 2007, 32(2): 12-13.
7Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6).
8Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5).
9Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1).
10Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/～cjlin/libsvm.

共引文献80

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
3贺喜,蒋建春,丁丽萍,王永吉,廖晓峰.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012,29(8):1-4. 被引量：5
4李忠俊.基于话题检测与聚类的内部舆情监测系统[J].计算机科学,2012,39(12):237-240. 被引量：8
5赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(4):732-737. 被引量：18
6冯伟.基于云计算技术的新型网络信息监控体系设计[J].信息网络安全,2013(4):75-77. 被引量：1
7李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.
8吴晓萍,赵学靖,乔辉,刘东梅,王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013,30(9):2748-2751. 被引量：16
9赵永升.基于微格式的分布式网络舆情监测系统[J].计算机工程,2013,39(11):272-275. 被引量：5
10温腊,芮建武,何婷婷,郭亮.利用并行GPU对分层分布式狄利克雷分布算法加速[J].计算机应用,2013,33(12):3313-3316. 被引量：2

同被引文献21

1孔云,廖寅,资芸,薛秀珍,张仲华.基于微信公众账号的图书馆移动信息服务研究[J].情报杂志,2013,32(9):167-170. 被引量：171
2史庆伟,乔晓东,徐硕,农国武.作者主题演化模型及其在研究兴趣演化分析中的应用[J].情报学报,2013,32(9):912-919. 被引量：24
3夏保国,常亚平.政务微信的沟通机制研究——基于技术接受模型的视角[J].国家行政学院学报,2014(3):102-106. 被引量：34
4董玥,王雷,刘健.新型智库微信公众平台信息传播影响力评价体系研究[J].情报科学,2018,36(12):41-45. 被引量：17
5蒋天民,胡新平.政务微信的发展现状、问题分析及展望[J].现代情报,2014,34(10):88-91. 被引量：30
6林琳.人民日报社的“侠客岛”何以名动微信公众号“江湖”?[J].中国记者,2015,0(2):44-45. 被引量：7
7李明德,高如.媒体微信公众号传播力评价研究——基于20个陕西媒体微信公众号的考察[J].情报杂志,2015,34(7):141-147. 被引量：108
8王海燕.图书馆微信公众平台传播影响力研究[J].图书馆工作与研究,2015(9):28-31. 被引量：46
9冀芳,张夏恒.学术期刊微信公众平台影响力研究——基于5种CSSCI来源期刊的实证分析[J].情报杂志,2016,35(4):147-151. 被引量：35
10李宗富,张向先.政务微信公众号服务质量的关键影响因素识别与分析[J].图书情报工作,2016,60(14):84-93. 被引量：41

引证文献1

1张昊东,赵立新.基于AToT模型的中国科技部官方微信主题量化分析[J].科技导报,2022,40(6):110-121. 被引量：1

二级引证文献1

1张昊东.科协系统深化改革中地市级改革试点评价和研究[J].今日科苑,2023(2):75-83.

1于振海.文件夹快速定位好助手[J].电子制作．电脑维护与应用,2005(11):28-28.
2王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：91
3王力,李怀英.基于本体的产品设计知识表示研究[J].计算机技术与发展,2014,24(9):115-119. 被引量：6
4蒋瑞挺.基于加速度传感器的倾角测量[J].电子制作,2010,18(11):37-39. 被引量：3
5王万吉,马佳,冯燚超.基于分类的NCS信息调度综述[J].仪器仪表与分析监测,2008(3):1-4. 被引量：1
6石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
7戴启航,于本成,张圣杰.装载机实时定位及工作流程在线监测系统的设计[J].信息与电脑,2016,28(16):122-123. 被引量：1
8王路,邢清华,毛艺帆.单向证据冲突度量方法[J].通信学报,2016,37(7):118-123.
9赵天婵,冯俊,吴晖,吴文炳.水平移动式三坐标测量机空间误差检测与补偿[J].机床与液压,2008,36(8):236-240. 被引量：1
10董来根.基于互联网的自然灾害风险沟通平台研究[J].防灾科技学院学报,2011,13(4):67-72. 被引量：1

电脑知识与技术

2014年第6期

浏览历史

内容加载中请稍等...

基于LDA模型的新闻话题分类研究被引量：1

参考文献4

二级参考文献15

共引文献80

同被引文献21

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的新闻话题分类研究 被引量：1

参考文献4

二级参考文献15

共引文献80

同被引文献21

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA模型的新闻话题分类研究被引量：1