期刊文献+

一种改进的Supervised-LDA文本模型及其应用 被引量:3

An Improved Supervised-LDA Text Model and Its Application
下载PDF
导出
摘要 有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模型以及该模型主题分类存在的问题,通过验证sl-LDA模型的分类精度,对sl-LDA模型与s-LDA模型进行新闻主题分类实验。在中文和英文新闻语料库上的实验结果表明,英文语料库分类精度提高约3.80%,中文语料库提高约1.77%。 Supervised-Latent Dirichlet Distribution Allocation and s-LDA model is not correct distribution in the classification (s-LDA) model cannot handle the multi-label problem model. The Supervised Labled-LDA(sl-LDA) model is proposed by adding a category label based on the response variable. It analyses s-LDA model and existed problem of topic classification, through verifying the classification accuracy of sl-LDA model, the paper classifies the sl-LDA model and s- LDA model. Experimental results in the Chinese and English news corpus show that English corpus classification performance is improved by about 3.80% and Chinese corpus is improved by about 1.77%.
出处 《计算机工程》 CAS CSCD 北大核心 2018年第1期69-73,78,共6页 Computer Engineering
基金 国家社会科学基金青年项目"基于大数据整合的空气质量测度方法研究"(14CTJ009) 陇原青年创新人才扶持计划项目"基于大数据整合的‘废旧数据’应用研究"(14GSD95) 甘肃省财政厅高校基本科研业务费专项基金"大数据整合下的统计调查技术及其经济应用研究"(GZ14007) 全国统计科学研究重点项目"网络大数据统计生产及其数据质量控制研究"(2017LZ43)
关键词 s-LDA模型 响应变量 新闻主题 主题模型 类别标签 s-LDA model response variable news topic topic model category label
  • 相关文献

参考文献8

二级参考文献114

  • 1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报(自然科学版),2005,45(S1):1802-1805. 被引量:26
  • 2曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报(自然科学版),2004,32(z1):99-102. 被引量:27
  • 3王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量:9
  • 4姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量:67
  • 5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:383
  • 6Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
  • 7Caol J, Li Jintao, Zhang Yongdong, et al. LDA-based Retrieval Framework for Semantic News Video Retrieval[C]//Proc. of Conf. on Semantic Computing. Irvine, California, USA: IEEE Press, 2007.
  • 8Steyvers M, Griffiths T. Probabilistic Topic Models[M]//Landauer T, McNamara D, Dennis S, et al. Latent Semantic Analysis: A Road to Meaning. [S. l.]: MIT Press, 2006.
  • 9Griffiths T, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences, 2004, 101 (Suppl. 1 ): 5228-5235.
  • 10Nevada L V. Fast Collapsed Gibbs Sampling for Latent Dirichlet Allocation[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2008: 569-577.

共引文献208

同被引文献36

引证文献3

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部