摘要
【目的】通过提高文本内容表示的数据质量,关联文本内容和文本标签向量,从而提高文本分类的效果。【方法】改进关键词的抽取方法,并使用关键词向量表示文本,提出类别标签表示算法对文本类别进行向量化表示,提出基于注意力机制的胶囊网络作为分类器,构建KACC模型,并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量;实验结果表明,KACC模型在准确率、召回率、F值三方面均优于现有模型,分类准确率达97.4%。【局限】实验数据规模受限,未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。
[Objective]This paper tries to improve the quality of text representation,and correlate contents with text label vectors,aiming to improve the classification results.[Methods]Firstly,we modified the keyword extraction method(KE).We used the keyword vectors to represent the text,and adopted a category label representation algorithm(CLR)to create the text vectors.Then,we employed the attention-based capsule network(Attention-Capsnet)as the classifier,to construct the KACC(KE-Attention-Capsnet-CLR)model.Finally,we compared our classification results with other methods.[Results]KACC model effectively improved the data quality,which led to better Precision,Recall and F-Measure than existing models.The classification precision reached 97.4%.[Limitations]The experimental data size needs to be expanded,and more research is needed to examine the category discrimination rules with other corpuses.[Conclusions]KACC model is an effective classification model for texts.
作者
李钰曼
陈志泊
许福
Li Yuman;Chen Zhibo;Xu Fu(School of Information Science&Technology,Beijing Forestry University,Beijing 100083,China)
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第10期89-97,共9页
Data Analysis and Knowledge Discovery
基金
国家自然科学基金项目“面向开源软件复用的程序分析基础理论及方法研究”(项目编号:61772078)
北京林业大学热点追踪项目“互联网+生态站关键技术研究”(项目编号:2018BLRD18)的研究成果之一
关键词
文本分类
关键词抽取
注意力机制
胶囊网络
类别标签表示
Text Classification
Keywords Extraction
Attention Mechanism
Capsule Network
Category Label Representation