摘要
有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模型以及该模型主题分类存在的问题,通过验证sl-LDA模型的分类精度,对sl-LDA模型与s-LDA模型进行新闻主题分类实验。在中文和英文新闻语料库上的实验结果表明,英文语料库分类精度提高约3.80%,中文语料库提高约1.77%。
Supervised-Latent Dirichlet Distribution Allocation and s-LDA model is not correct distribution in the classification (s-LDA) model cannot handle the multi-label problem model. The Supervised Labled-LDA(sl-LDA) model is proposed by adding a category label based on the response variable. It analyses s-LDA model and existed problem of topic classification, through verifying the classification accuracy of sl-LDA model, the paper classifies the sl-LDA model and s- LDA model. Experimental results in the Chinese and English news corpus show that English corpus classification performance is improved by about 3.80% and Chinese corpus is improved by about 1.77%.
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第1期69-73,78,共6页
Computer Engineering
基金
国家社会科学基金青年项目"基于大数据整合的空气质量测度方法研究"(14CTJ009)
陇原青年创新人才扶持计划项目"基于大数据整合的‘废旧数据’应用研究"(14GSD95)
甘肃省财政厅高校基本科研业务费专项基金"大数据整合下的统计调查技术及其经济应用研究"(GZ14007)
全国统计科学研究重点项目"网络大数据统计生产及其数据质量控制研究"(2017LZ43)