基于堆叠模型的司法短文本多标签分类被引量：3

Multi-label Classification of Judicial Short Texts Based on Stacking Model

下载PDF

导出

摘要司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求。为此,提出一种融合深度学习与堆叠模型的多标签分类方法。该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验证得到所有数据的多标签分类概率值,将此概率值数据进行融合形成元数据;第二层使用自定义的深度神经网络作为混合器,以第一层的元数据为输入,通过训练多标签概率矩阵获取模型参数。该方法将强分类器关联在一起,获得比单个分类器更加强大的性能。实验结果表明,深度学习堆叠模型实现了87%左右的短文本分类F1分数,优于BERT、卷积神经网络、循环神经网络及其他单个模型的性能。 The semantic diversity and feature sparsity of short texts in judicial documents is a great challenge to the accuracy of multi-label classification,so the traditional single model classification algorithm can no longer meet the business needs.For this reason,we propose a multi-label classification method combining deep learning and stacking model.This method divides the classifiers into two layers.In the first layer,deep learning methods such as BERT,convolutional neural network and gated recurrent unit are used as the basic classifier.Each basic classifier model obtains the multi-label classification probability value of all data through K-fold cross-validation,which are merged to form metadata.In the second layer,the user-defined deep neural network is used as the mixer,and the metadata in the first layer is used as the input,and the model parameters are obtained by training the multi label probability matrix.This method associates the strong learners together and gains more powerful functions than a single classifier.The experiment shows that the proposed model stacking method achieves about 87%of the F1 score of short text classification,which is superior to BERT,convolutional neural network,cyclic neural network and other single models.

作者何涛陈剑闻英友孔为民 HE Tao;CHEN Jian;WEN Ying-you;KONG Wei-min(Neusoft Research,Northeastern University,Shenyang 110169,China;People’s Procuratorate of Dingtao,Heze 274100,China)

机构地区东北大学东软研究院定陶区人民检察院

出处《计算机技术与发展》 2021年第3期27-32,共6页 Computer Technology and Development

基金国家重点研发计划(2018YFC0830601) 辽宁省重点研发计划(2019JH2/10100027) 教育部基本科研业务费项目(N171802001) 辽宁省“兴辽英才计划”项目(XLYC1802100)。

关键词堆叠模型 BERT 卷积神经网络门限循环单元多标签分类 stacking model bidirectional encoder representations from transformers convolutional neural network gated recurrent unit multi-label classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈钊,徐睿峰,桂林,陆勤.结合卷积神经网络和词语情感序列特征的中文情感分析[J].中文信息学报,2015,29(6):172-178. 被引量：49

二级参考文献19

1Pang B. , Lee L. , Vaithyanathan S. Thumbs up?: sentiment classification using machine learning tech- niques [C]//Proceedings of the ACL. 2002: 79-86.
2Xu R. F, Wong K. F, Xia Y. Coarse-Fine opinion min- ing-WIA in NTCIR-7 MOAT task [C]//Proceedings of NTCIR. 2008: 307-313.
3Tan S. , Zhang J. An empirical study of sentiment a- nalysis for Chinese documents [J]. Expert Systems with Applications, 2008, 34(4): 2622-2629.
4Socher R. , Perelygin A. , Wu J. Y. , et al. Recursive deep models for semantic compositionality over a senti- ment Treebank [C]//Proceedings of the EMNLP. 2013: 1631-1642.
5Kim Y. Convolutional neural networks for sentence classification [C]//Proceedings of the EMNLP. 2014: 1746-1751.
6Wang S. , Manning C. D Baselines and bigrams: Sim- ple, good sentiment and topic classification [C]//Pro- ceedings of the ACL. 2012: 90-94.
7Bollegala D., Weir D., Carroll J. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification [C]//Proceed- ings of the ACL. 2011: 132-141.
8Bengio Y. , Ducharme R. , Vincent P. , et al. A neural probabilistic language model [J]. The Journal of Ma- chine Learning Research, 2003, 3.. 1137-1155.
9Mnih A. , Hinton G. E A scalable hierarchical distrib-uted language model [C]//Proceedings of the NIPS. 2009 : 1081-1088.
10Mikolov T. , Sutskever I. ,Chen K. , et al. Distribu- ted representations of words and phrases and their compositionality [C]//Proceedings of the NIPS. 2013: 3111-3119.

共引文献48

1余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
2谢铁,郑啸,张雷,王修君.基于并行化递归神经网络的中文短文本情感分类[J].计算机应用与软件,2017,34(3):205-211. 被引量：11
3黄发良,冯时,王大玲,于戈.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40(4):872-888. 被引量：62
4李芳,刘胜宇,刘峥.生物医学语义关系抽取方法综述[J].图书馆论坛,2017,37(6):61-69. 被引量：9
5王盛玉,曾碧卿,胡翩翩.基于卷积神经网络参数优化的中文情感分析[J].计算机工程,2017,34(8):200-207. 被引量：20
6鲁新新,柴岩.L2-SVM下的短文本情感分类动态CNN模型[J].计算机应用与软件,2018,35(1):298-303. 被引量：3
7谢金宝,侯永进,康守强,李佰蔚,张霄.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258-1265. 被引量：29
8陈珂,梁斌,柯文德,许波,曾国超.基于多通道卷积神经网络的中文微博情感分析[J].计算机研究与发展,2018,55(5):945-957. 被引量：75
9谢志峰,吴佳萍,马利庄.基于卷积神经网络的中文财经新闻分类方法[J].山东大学学报（工学版）,2018,48(3):34-39. 被引量：5
10喻涛,罗可.利用动态多池卷积神经网络的情感分析模型[J].计算机科学与探索,2018,12(7):1182-1190. 被引量：4

同被引文献52

1张庆龙,安再展,刘天云,张兆省,皇甫泽华,李庆斌.土石坝压实的智能控制理论[J].水力发电学报,2020(7):34-40. 被引量：18
2沈竞.基于信息增益的LDA模型的短文本分类[J].重庆文理学院学报（自然科学版）,2011,30(6):64-66. 被引量：6
3樊启祥,杨宗立,汪志林,何文,邬昆.大型水电工程建设全过程数字化动态管控[J].水力发电学报,2019,38(1):1-11. 被引量：29
4金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：48
5杨扬,张驰.基于图编码的网络拓扑语义挖掘[J].通信技术,2018,51(11):2631-2638. 被引量：1
6王序文,李姣,吴英杰,李军莲.基于BiLSTM-CRF的中文生物医学开放式概念关系抽取[J].中华医学图书情报杂志,2018,27(11):33-39. 被引量：4
7于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：40
8郝志峰,柯妍蓉,李烁,蔡瑞初,温雯,王丽娟.基于图编码网络的社交网络节点分类方法[J].计算机应用,2020,40(1):188-195. 被引量：9
9闫宏丽,罗永莲.基于决策树方法的突发事件新闻分类[J].电子技术与软件工程,2020(2):194-195. 被引量：4
10杨锋.基于线性支持向量机的文本分类应用研究[J].信息技术与信息化,2020(3):146-148. 被引量：6

引证文献3

1陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281. 被引量：1
2王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：15
3薛颂东,张轩冉,王斌,李靖,曹旺旺,乔钢柱.集成多特征信息的街景图像变化检测方法[J].计算机技术与发展,2023,33(6):69-74. 被引量：1

二级引证文献17

1张彬桥,杨文娟,葛苏叶,董晓英.水电站运维本体知识库构建及应用[J].水力发电学报,2022,41(10):86-98. 被引量：11
2张晓健,张栋梁,李明超,田丹,沈扬,吕沅庚.面向质量检测的混凝土坝施工规范智能检索[J].水力发电学报,2023,42(4):114-125. 被引量：1
3杨有慧,董申颂,陈明媛,庞壮,覃芳璐.基于TPE-BIRCH的电网安全隐患分类方法[J].广西电力,2022,45(6):57-63.
4陈浩,王硕新,佟浩铭.建筑机电工程施工安全隐患排查与治理技术[J].建筑机械化,2023,44(10):77-80. 被引量：2
5姜佩奇,梁斌杰,刘辉,张社荣,王枭华,王超.工程场区施工人员靠近风险区实时预警方法[J].水利规划与设计,2023(12):123-129. 被引量：2
6王婷,梁佳莹,杨川,何松泽,向东,马洪江.改进DPCNN分类模型在金融领域长文本的应用[J].计算机系统应用,2023,32(12):74-83.
7杨涛,赵嵩.水利工程安全隐患文本挖掘与智能管理技术研究[J].企业科技与发展,2023(12):96-101. 被引量：1
8刘爽,丁哲,吕超,朱珊珊.基于文本分类和知识挖掘的远洋渔船安全问题分析[J].农业工程学报,2023,39(24):215-223.
9康玉奇,向聪,王伟,于贵龙.基于SAR图像变化的小型目标检测[J].火控雷达技术,2024,53(1):1-7.
10郑霞忠,刘奕成,邵波,王硕,柯善钢.基于文本挖掘的水电工程施工物体打击事故致因分析[J].中国安全科学学报,2024,34(4):50-57.

1姜日鑫.基于数据引用的Revit模型数据轻量化插件研究[J].建筑技术开发,2021,48(3):92-94. 被引量：1

计算机技术与发展

2021年第3期

浏览历史

内容加载中请稍等...

基于堆叠模型的司法短文本多标签分类被引量：3

参考文献1

二级参考文献19

共引文献48

同被引文献52

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于堆叠模型的司法短文本多标签分类 被引量：3

参考文献1

二级参考文献19

共引文献48

同被引文献52

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于堆叠模型的司法短文本多标签分类被引量：3