基于KACC模型的文本分类研究被引量：4

Classifying Texts with KACC Model

导出

摘要【目的】通过提高文本内容表示的数据质量,关联文本内容和文本标签向量,从而提高文本分类的效果。【方法】改进关键词的抽取方法,并使用关键词向量表示文本,提出类别标签表示算法对文本类别进行向量化表示,提出基于注意力机制的胶囊网络作为分类器,构建KACC模型,并进行文本分类的对比实验。【结果】KACC模型有效提高了数据质量;实验结果表明,KACC模型在准确率、召回率、F值三方面均优于现有模型,分类准确率达97.4%。【局限】实验数据规模受限,未对类别区分度在其他语料上的代表性进行探究。【结论】KACC模型在文本分类方面与现有分类方法相比具有更好的分类效率和效果。 [Objective]This paper tries to improve the quality of text representation,and correlate contents with text label vectors,aiming to improve the classification results.[Methods]Firstly,we modified the keyword extraction method(KE).We used the keyword vectors to represent the text,and adopted a category label representation algorithm(CLR)to create the text vectors.Then,we employed the attention-based capsule network(Attention-Capsnet)as the classifier,to construct the KACC(KE-Attention-Capsnet-CLR)model.Finally,we compared our classification results with other methods.[Results]KACC model effectively improved the data quality,which led to better Precision,Recall and F-Measure than existing models.The classification precision reached 97.4%.[Limitations]The experimental data size needs to be expanded,and more research is needed to examine the category discrimination rules with other corpuses.[Conclusions]KACC model is an effective classification model for texts.

作者李钰曼陈志泊许福 Li Yuman;Chen Zhibo;Xu Fu(School of Information Science&Technology,Beijing Forestry University,Beijing 100083,China)

机构地区北京林业大学信息学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第10期89-97,共9页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目“面向开源软件复用的程序分析基础理论及方法研究”(项目编号:61772078) 北京林业大学热点追踪项目“互联网+生态站关键技术研究”(项目编号:2018BLRD18)的研究成果之一

关键词文本分类关键词抽取注意力机制胶囊网络类别标签表示 Text Classification Keywords Extraction Attention Mechanism Capsule Network Category Label Representation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙飞,郭嘉丰,兰艳艳,程学旗.面向文本分类的有监督显式语义表示[J].数据采集与处理,2017,32(3):550-558. 被引量：1
2卢玲,杨武,王远伦,雷子鉴,李莹.结合注意力机制的长文本分类方法[J].计算机应用,2018,38(5):1272-1277. 被引量：21
3江伟,金忠.基于短语注意机制的文本分类[J].中文信息学报,2018,32(2):102-109. 被引量：11
4陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
5魏勇.关联语义结合卷积神经网络的文本分类方法[J].控制工程,2018,25(2):367-370. 被引量：11
6谢志峰,吴佳萍,马利庄.基于卷积神经网络的中文财经新闻分类方法[J].山东大学学报（工学版）,2018,48(3):34-39. 被引量：5
7姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：56

二级参考文献23

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
2伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
3Deerwester S,Dumais S T A.lndexing by latent semantic analysis[J] Journal of the Society for Information Science,1990,41(6).
4Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5).
5Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(1).
6Chang Chih-Chung,Lin Chih-Jen.LIBSVM:A library for support vector machine[EB/OL].(2001).http://www.csie.ntu.edu.tw/～cjlin/libsvm.
7何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
8王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
9徐姗姗,刘应安,徐昇.基于卷积神经网络的木材缺陷识别[J].山东大学学报（工学版）,2013,43(2):23-28. 被引量：45
10刘露,彭涛,左万利,戴耀康.一种基于聚类的PU主动文本分类方法[J].软件学报,2013,24(11):2571-2583. 被引量：24

共引文献112

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2唐詹,柏召,刁磊,郭旭超,周晗,李林.基于注意力池化和堆叠式结构的病虫害文献识别模型[J].农业机械学报,2021,52(S01):178-184. 被引量：2
3黄解放.拓展思维空间提高训练效率──第八册《基础训练6》教学设计[J].小学语文教学,2000(6):52-53.
4贺喜,蒋建春,丁丽萍,王永吉,廖晓峰.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012,29(8):1-4. 被引量：5
5李冬睿,李梅.基于潜在狄利克雷分配的图像多层视觉表示方法[J].计算机应用,2013,33(8):2310-2312.
6吴晓萍,赵学靖,乔辉,刘东梅,王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013,30(9):2748-2751. 被引量：16
7温腊,芮建武,何婷婷,郭亮.利用并行GPU对分层分布式狄利克雷分布算法加速[J].计算机应用,2013,33(12):3313-3316. 被引量：2
8王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：97
9邵洲,张晖.基于完全稀疏主题模型的多文档自动摘要[J].计算机工程与设计,2014,35(3):1032-1036. 被引量：1
10李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12

同被引文献60

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3曾德明,张志东,赵胜超.科学合作网络、伙伴动态性与企业创新绩效[J].科学学研究,2022,40(5):906-914. 被引量：9
4宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
5李思宏,罗瑾琏,田瑞雪.科技人才评价与选拔体系构建思路[J].科技进步与对策,2009,26(14):148-150. 被引量：21
6李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
7冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
8郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：7
9罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
10杨璐瑶,张向前.我国“十三五”适应创新驱动的科技人才发展机制的制度分析[J].科技管理研究,2016,36(7):60-65. 被引量：19

引证文献4

1陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
2余本功,朱晓洁,张子薇.基于多层次特征提取的胶囊网络文本分类研究[J].数据分析与知识发现,2021,5(6):93-102. 被引量：5
3程雅倩,黄玮,金晓祥,贾佳.5G环境下高校图书馆自媒体平台多标签文本分类方法研究[J].情报科学,2022,40(2):155-161. 被引量：10
4刘向,刘香,余博文.创新二重性视角下明星发明人类型的早期识别[J].数据分析与知识发现,2023,7(2):119-128. 被引量：2

二级引证文献32

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：2
2靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4郑丽敏,齐珊珊,田立军,杨璐.面向食品安全事件新闻文本的实体关系抽取研究[J].农业机械学报,2020,51(7):244-253. 被引量：16
5白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
6王军.基于计算机网络的无线网络异常信息流过滤方法[J].长江信息通信,2021(3):77-79. 被引量：2
7林文广,赖荣燊,肖人彬.基于语义关联的专利有害性能知识挖掘研究[J].中国机械工程,2021,32(16):1952-1962. 被引量：3
8金宁,赵春江,吴华瑞,缪祎晟,王海琛,杨宝祝.基于多语义特征的农业短文本匹配技术[J].农业机械学报,2022,53(5):325-331. 被引量：3
9利润霖,龙昌敏,李雯芸,胡广林,强玉龙,刘彦君.基于TextRank算法的项目标签智能化生成技术研究[J].信息技术,2022,46(8):77-82. 被引量：3
10范明炜,张云华.结合显式句法依赖与分层注意力进行方面级情感分析[J].软件工程,2022,25(9):1-4.

1姜同强,万忠赫,张青川.基于双向长短期记忆网络和自注意力机制的食品安全裁判文书分类方法[J].科学技术与工程,2019,19(29):188-192. 被引量：11
2刘娜,张祺,马晓晨,吴光宇.智能垃圾箱项目分析[J].山西农经,2019,0(18):88-89. 被引量：1
3苏玲玲.基于Python语言文本挖掘的精准嵌入式学科服务探索——以服务大学生科创活动为例[J].中文科技期刊数据库（全文版）图书情报,2019(10):139-142.
4薛晓琴,岳亚伟,夏磊,李丽,贺雄伟.利用协同表示与神经网络的高光谱图像亚像元定位[J].遥感信息,2019,34(5):69-75.
5李林升,曾平平.改进深度学习框架Faster-RCNN的苹果目标检测[J].机械设计与研究,2019,35(5):24-27. 被引量：22
6冀中,汪浩然,于云龙,庞彦伟.零样本图像分类综述:十年进展[J].中国科学：信息科学,2019,49(10):1299-1320. 被引量：19
7于长英,苏永玲,孙彦.提高沈阳城市居民生活垃圾分类成效对策研究[J].大众投资指南,2019,0(18):287-288.
8王科举,廉小亲,安飒,陈彦铭,龚永罡.基于树莓派和Arduino的智能垃圾桶[J].信息技术与信息化,2019(10):104-108. 被引量：15
9姚立平,潘中良.一种多算法融合的人脸识别方法研究[J].光电子．激光,2019,30(9):960-967. 被引量：10
10张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报（自然科学版）,2019,41(4):89-94. 被引量：1

数据分析与知识发现

2019年第10期

浏览历史

内容加载中请稍等...

基于KACC模型的文本分类研究被引量：4

参考文献7

二级参考文献23

共引文献112

同被引文献60

引证文献4

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于KACC模型的文本分类研究 被引量：4

参考文献7

二级参考文献23

共引文献112

同被引文献60

引证文献4

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于KACC模型的文本分类研究被引量：4