期刊文献+

基于LDA模型的新闻话题分类研究 被引量:1

Study on Classification of News Topic Based on LDA Model
下载PDF
导出
摘要 针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。 The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters;and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance;finally, the incremen-tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.
出处 《电脑知识与技术》 2014年第6期3795-3797,3823,共4页 Computer Knowledge and Technology
基金 安徽省高校省级自然科学研究重点项目(NO.KJ2014A250) 宿州学院校级科研平台开放课题项目(NO.2013YKF14) 安徽省大学生创新创业训练计划项目(NO.AH201310379082)
关键词 LDA 文本聚类 新闻话题 分类 主题 Latent Dirichlet Allocation Text Clustering News Topic Classification Topic
  • 相关文献

参考文献4

二级参考文献15

  • 1于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量:49
  • 2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:378
  • 3伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报(自然科学版),2007,25(1):62-66. 被引量:4
  • 4Allan J. Topic Detection and Tracking: Event-based Information Organization[M]. [S.l.]: KluwerAcademic Publishers, 2002: 1-16.
  • 5Ault T G, Yang Yiming. Information Filtering in TREC-9 and TDT-3: A Comparative Analysis[J]. Information Retrieval, 2002, 5(2/3): 159-187.
  • 6Wei Chih-Ping, Chang Yu-Hsiu. Discovering Event Evolution Patterns from Document Sequences[J]. IEEE Transactions on Systems, Man, and Cybernetics Part A: Systems and Humans, 2007, 32(2): 12-13.
  • 7Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6).
  • 8Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5).
  • 9Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1).
  • 10Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/~cjlin/libsvm.

共引文献80

同被引文献21

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部