基于编码解码器与深度主题特征抽取的多标签文本分类被引量：5

Multi-label Text Classification Based on Seq2Seq Model and Deep Topic Feature Extraction

下载PDF

导出

摘要本文提出了一种基于编码解码器与深度主题特征的模型,实现了多标签文本分类.针对传统多标签文本分类方法的特征语义缺失的问题,采用一种长短时记忆(long short-term memory,LSTM)网络提取文本的局部特征与主题模型(latent dirichlet allocation,LDA)提取文本的全局特征的深度主题特征提取模型(deep topic feature extraction model,DTFEM),得到具有文本深层语义特征的语义编码向量,并将该编码向量作为解码器网络的输入.解码器网络将多标签文本分类的任务看作序列生成的过程,解决了多标签文本分类的标签相关性的问题,并加入attention机制,计算注意力分布概率,突出关键输入对输出的作用,改进了由于输入过长导致的语义缺失问题,最终实现多标签文本分类.实验结果表明,该模型能够获得比传统的多标签文本分类系统更优的结果.另外,实验证明使用深度主题特征的方法可以提高多标签文本分类的性能. In this paper,a model based on seq2 seq model and deep topic feature extraction is proposed to realize multilabel text classification. Aiming at the problem of feature semantics loss in traditional multi-label text classification method,a model is proposed to extract the local features of texts by using the Long Short-term Memory( LSTM) network and extract the global features of texts by using topic model( Latent Dirichlet Allocation,LDA) named Deep Topic Feature Extraction Model( DTFEM),and then obtain the semantic coding vector with deep semantic feature,and the vector is used as the input of the decoder network. The decoder network regards the task of multi-label text classification as the process of sequence generation,solves the problem of label correlation of multi-label text classification,and adds the attention mechanism to calculate the probability distribution of attention,highlights the effect of key input on the output,improves the semantic missing problem due to excessive input,and realizes the final multi-label text classification. The experimental results show that the model can obtain better results than the traditional multi-label text classification system. In addition,the experiments have shown that the use of deep topic features can improve the performance of multi-label text classification.

作者陈文实刘心惠鲁明羽 Chen Wenshi;Liu Xinhui;Lu Mingyu(School of Information Science and Technology,Dalian Maritime University,Dalian 116026,China)

机构地区大连海事大学信息科学技术学院

出处《南京师大学报（自然科学版）》 CAS CSCD 北大核心 2019年第4期61-68,共8页 Journal of Nanjing Normal University(Natural Science Edition)

基金国家自然科学基金(61073133)

关键词多标签文本分类深度主题特征标签相关性编码解码器 attention机制 multi-label text classification deep topic feature extraction label correlation seq2seq attention mechanism

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1邱云飞,郭弥纶,邵良杉.基于主题树的微博突发话题检测[J].计算机应用,2014,34(8):2332-2335. 被引量：6
2王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：23

二级参考文献22

1刘群,李素建.基于《知网》的词汇语义相似度计算[EB/OL].http://www.keenage.com/papers.
2Shehata S,et al. An efficient concept-based mining model for enhancing text clustering[ J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(10) : 1360 - 1371.
3Andrzejewski D, Buttler D. Latent topic feedback for informa- tion relrieval[ A ]. Proceedings of 17th ACM SIGKDD Interna- tional Conference on Knowledge Discovery and Data Mining (KDD) [ C] .New York: ACM press,2011.600- 608.
4Wang X, et al. Topical N-grams:Phrase and topic discovery, with an application to information retrieval[ A]. Proc of the 7th IEEE. International Conference on Data Mining [ C ]. Omaha, Nebraska, USA, 2007.697 - 702.
5Heinrich G. Parameter estimation for text analysis[ Z/OL]. http://www, arbylon, net/publications/text-est, pdf, 2005.
6Ramage D, Heymann P. Clustering the tagged web[ A] .Proc of the Second ACM International Conference on Web Search and Data Mining[ C]. Barcelona, Spain,2009.54- 63.
7Frey B J, Dueck D. Clustering by passing messages between data points[ J]. Science,2007,315(5814) :972- 976.
8Newman D,Noh Y, Tally E. Evaluating topic models for digi- tal libraries[ A] .Proc of JCDL[ C]. Gold Coast, Queensland, Australia, 2010.215 - 224.
9洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
10曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：82

共引文献27

1江雨燕,李平,王清.基于共享背景主题的Labeled LDA模型[J].电子学报,2013,41(9):1794-1799. 被引量：17
2王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
3崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
4邱云飞,郭弥纶,邵良杉.基于主题树的微博突发话题检测[J].计算机应用,2014,34(8):2332-2335. 被引量：6
5苏雪阳,左万利,王俊华.基于本体与模式的网络用户兴趣挖掘[J].电子学报,2014,42(8):1556-1563. 被引量：6
6陈千,桂志国,郭鑫,向阳.基于特征本体的文本流主题演化[J].计算机应用,2015,35(2):456-460. 被引量：3
7丁宇新,燕泽权,冯威,薛成龙,周迪.基于有监督主题模型的排序学习算法[J].电子学报,2015,43(2):333-337. 被引量：4
8严宇.基于隐马尔科夫链的微博信息热点抽取算法研究与设计[J].信息系统工程,2015,28(10):129-129.
9欧阳继红,刘燕辉,李熙铭,周晓堂.基于LDA的多粒度主题情感混合模型[J].电子学报,2015,43(9):1875-1880. 被引量：23
10张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18

同被引文献37

1易顺明,周洪斌,周国栋.Twitter推文与情感词典SentiWordNet匹配算法研究[J].南京师范大学学报（工程技术版）,2016,16(3):41-47. 被引量：2
2刘娜,毛晓菊,吴敏.集群分类映射的文本多标签模糊关联降维聚类[J].计算机工程与设计,2017,38(6):1657-1663. 被引量：4
3梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：132
4龚静,黄欣阳.基于隐性语义索引的多标签文本分类集成方法[J].计算机工程与设计,2017,38(9):2556-2561. 被引量：6
5谢晨阳,卢焱鑫.基于HDP的监督多标签文本分类研究[J].计算机工程与应用,2017,53(23):18-23. 被引量：2
6谢金宝,侯永进,康守强,李佰蔚,张霄.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258-1265. 被引量：29
7宋攀,景丽萍.基于神经网络探究标签依赖关系的多标签分类[J].计算机研究与发展,2018,55(8):1751-1759. 被引量：16
8苏雪峰,李茹,张虎.面向高考的现代文阅读材料体裁自动分类[J].计算机工程与设计,2018,39(6):1755-1760. 被引量：2
9程东生,范广璐,俞雯静,伍飞,曾伟波.基于极限学习机的中文文本分类方法[J].重庆理工大学学报（自然科学）,2018,32(8):156-164. 被引量：5
10张春焰,李涛,刘峥.基于路径选择的层次多标签分类[J].计算机技术与发展,2018,28(10):37-43. 被引量：2

引证文献5

1孙桂煌.基于大数据技术的中文多标签文本分类方法研究[J].齐齐哈尔大学学报（自然科学版）,2020,36(6):39-43. 被引量：2
2王一宾,郑伟杰,程玉胜,曹天成.基于PLSA学习概率分布语义信息的多标签分类算法[J].南京大学学报（自然科学版）,2021,57(1):75-89. 被引量：7
3马晓慧,马尚才,闫俊伢,陈波.基于距离感知的目标情感分类模型[J].南京师大学报（自然科学版）,2021,44(4):111-116. 被引量：1
4采国润,肖宏飞.基于Apriori关联规则的大学语文阅读材料体裁分类方法[J].河北北方学院学报（自然科学版）,2023,39(3):15-21.
5陈华超,李刚领,廖承就,张惠荣,张磊.基于单目深度估计的输电线路防外破监测方法[J].科学与信息化,2023(22):73-75.

二级引证文献10

1程玉胜,徐玉婷,王一宾,缪佳李.基于共享子空间的潜在语义学习[J].南京大学学报（自然科学版）,2022,58(5):816-826. 被引量：2
2蒲松,黄河,张翔,黄浩鹏,于连栋.基于直线方程的测量机软件标签自动排布方法[J].工具技术,2021,55(11):112-115.
3谢波,何凤.基于反馈式文本分类技术自动识别项目标签[J].现代信息科技,2021,5(17):100-102.
4刘峰硕,王志芳,薛靖峰.基于多标签分类模型的青岛市社情民意的研究[J].中国市场,2022(1):40-41.
5朱旭东,熊贇.基于多层次注意力与图模型的图像多标签分类算法[J].计算机工程,2022,48(4):173-178. 被引量：3
6朱旭东,熊贇.基于样本分布损失的图像多标签分类研究[J].计算机科学,2022,49(6):210-216.
7吴少康,刘磊,曹恒.基于深度学习的嵌入式主题模型研究[J].电脑知识与技术,2022,18(28):7-10.
8张永宾,赵金楼.融合LDA与注意力的网络信息个性化推荐方法[J].计算机仿真,2022,39(12):528-532. 被引量：4
9周湘贞,李帅,隋栋.基于深度学习和注意力机制的微博情感分析[J].南京师大学报（自然科学版）,2023,46(2):115-121. 被引量：3
10王一宾,葛文信,程玉胜,吴海峰.基于多维相关性的弱类属属性学习[J].南京大学学报（自然科学版）,2023,59(4):690-704.

1翟剑锋.基于BERT的用户画像[J].电子技术与软件工程,2019,0(24):253-255. 被引量：4
2熊小琴,张琳静,陈元东.SMPD1基因多态性与帕金森病发病关系的研究[J].国际检验医学杂志,2019,40(24):2986-2990.
3王伟,孙玉霞,齐庆杰,孟祥福.基于BiGRU-attention神经网络的文本情感分类模型[J].计算机应用研究,2019,36(12):3558-3564. 被引量：61
4李勇,金庆雨,张青川.融合位置注意力机制和改进BLSTM的食品评论情感分析[J].郑州大学学报（工学版）,2020,41(1):58-62. 被引量：10
5王诚忠,华文.光纤信号源IP化传输接收系统的设计与实现[J].广播与电视技术,2020,47(1):69-71. 被引量：5
6雷亚平,于小植.缺位者带来的意义反转——《孔乙己》的语言和态度中的现代性反讽分析[J].东岳论丛,2019,0(12):26-31. 被引量：2
7邓旭冉,闵少波,徐静远,李攀登,谢洪涛,张勇东.深度细粒度图像识别研究综述[J].南京信息工程大学学报（自然科学版）,2019,11(6):625-637. 被引量：11
8Cheng-Xiao Wang,Wei Han,Liang Fan,Chun-Li Wang.Enzymatic pretreatment and microwave extraction of asiaticoside from Centella asiatica[J].Journal of Biomedical Science and Engineering,2009,2(7):526-531.
9杜文彬,刘登珲.美国整合式STEM教育的发展历程与实施策略——与Carla Johnson教授的对话[J].全球教育展望,2019,48(10):3-12. 被引量：18
10徐安德,赵亚康,张月群,鲁杨.基于相异性空间和多分类器融合的文本分类方法[J].兵器装备工程学报,2019,40(12):136-141. 被引量：1

南京师大学报（自然科学版）

2019年第4期

浏览历史

内容加载中请稍等...

基于编码解码器与深度主题特征抽取的多标签文本分类被引量：5

参考文献2

二级参考文献22

共引文献27

同被引文献37

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于编码解码器与深度主题特征抽取的多标签文本分类 被引量：5

参考文献2

二级参考文献22

共引文献27

同被引文献37

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于编码解码器与深度主题特征抽取的多标签文本分类被引量：5