基于BERT的诉讼案件违法事实要素自动抽取被引量：4

Automatic Illegal Fact Extraction of Lawsuit Case Based on BERT

下载PDF

导出

摘要针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirectional encoder representations from transformer, BERT)的诉讼案件违法事实要素自动抽取方法。首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量。其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果。最后,采用focal函数作为损失函数关注难以区分的样本。违法事实要素抽取的工作是通过对文本标签进行分类得到的。实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高。对模型注入领域内知识,也可以提高模型抽取准确率。 Based on the fact that the extraction of illegal fact elements in lawsuit cases depends on special professional knowledge,an automatic illegal fact elements extraction method of lawsuit cases based on BERT was proposed.Firstly,by constructing domain knowledge and using Google BERT pre-training language model for training,model parameters fitting the domain data of lawsuit cases and embedding vector of Chinese pre-training words were obtained as the input of the model,and the contextual representation was obtained to improve the quality of the context semantic of word embedding.Then the text was encoded by the cyclic convolutional neural network and the information that plays a key role in the text classification task was obtained.Finally,focal function was adopted as the loss function to focus on the indistinguishable samples.The work of extracting elements of illegal facts was obtained by classifying text labels.Experimental tests show that the F 1 value of the method is 86.41%,which is better than other methods.The accuracy of model extraction can also be improved by injecting domain knowledge into the model.

作者崔斌邹蕾徐明月 CUI Bin;ZOU Lei;XU Ming-yue(Beijing Jinghang Institute of Computing and Communication Information Engineering Division,Beijing 100074,China)

机构地区北京京航计算通讯研究所信息工程事业部

出处《科学技术与工程》北大核心 2021年第9期3669-3675,共7页 Science Technology and Engineering

基金国家重点研发计划(2018YFC0830800)。

关键词诉讼案件违法事实要素 BERT 预训练领域内知识 lawsuit cases illegal fact elements BERT pre-training domain knowledge

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王谦,史青宣,田学东.面向中文微博的情感要素抽取方法[J].兰州理工大学学报,2016,42(3):107-112. 被引量：1
2王曙,吉雷静,张雪英,赵仁亮,陈晓丹,余浩.面向网页文本的地理要素变化检测[J].地球信息科学学报,2013,15(5):625-634. 被引量：15
3王巍,赵铁军,辛国栋,徐永东.基于条件随机域模型的比较要素抽取研究[J].自动化学报,2015,41(8):1385-1393. 被引量：4
4王月,王孟轩,张胜,杜渂.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540. 被引量：43
5胡婧,刘伟,马凯.基于机器学习的高血压病历文本分类[J].科学技术与工程,2019,19(33):296-301. 被引量：9
6刘成锴,王斌君,吴勇.基于遗传算法的文本特征选择[J].科学技术与工程,2019,19(33):302-307. 被引量：15
7胡杰,李少波,于丽娅,杨观赐.基于卷积神经网络与随机森林算法的专利文本分类模型[J].科学技术与工程,2018,18(6):268-272. 被引量：23
8张永,孟晓飞.基于投影寻踪的kNN文本分类算法的加速策略[J].科学技术与工程,2014,22(36):92-96. 被引量：5
9王亚珅,黄河燕,冯冲,刘全超.基于级联模型的中文情感要素抽取[J].电子学报,2016,44(10):2459-2465. 被引量：2
10程良,郜洪奎,王红斌.基于依存树与规则相结合的汉泰新闻事件要素抽取方法[J].软件导刊,2018,17(7):49-56. 被引量：8

二级参考文献138

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2周国光.汉语配价语法论略[J].南京师大学报（社会科学版）,1994(4):103-106. 被引量：30
3李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
4钱育华.数字城镇的数据更新[J].地球信息科学,2002,4(3):64-67. 被引量：11
5孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
6孙瑞英.网络数据内容分析研究[J].图书馆学研究,2005(5):35-39. 被引量：12
7张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
8宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
9乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报（信息科学版）,2005,30(12):1100-1103. 被引量：27
10余有明,刘玉树,阎光伟.遗传算法的编码理论与应用[J].计算机工程与应用,2006,42(3):86-89. 被引量：59

共引文献143

1郭旨龙.计算机犯罪的时代更新[J].国家检察官学院学报,2023,31(4):77-98. 被引量：3
2杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
3吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
4李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
5崔斌,邹蕾,徐明月.融合CNN与BiLSTM的刑事案件决策研究[J].计算机应用研究,2020,37(S02):181-183. 被引量：1
6何芳.思想政治教育──素质教育的灵魂[J].教育探索,2000(8):66-67.
7沈平,桂志鹏,游兰,胡凯,吴华意.一种主动发现网络地理信息服务的主题爬虫[J].地球信息科学学报,2015,17(2):185-190. 被引量：4
8仇培元,张恒才,陆锋.互联网文本蕴含道路交通信息抽取的模式匹配方法[J].地球信息科学学报,2015,17(4):416-422. 被引量：10
9巩保胜,魏春苗.基于网络爬虫的地理空间信息采集方法[J].甘肃科技,2016,32(7):17-18. 被引量：2
10仇培元,陆锋,张恒才,余丽.蕴含地理事件微博客消息的自动识别方法[J].地球信息科学学报,2016,18(7):886-893. 被引量：11

同被引文献48

1郑海山.大数据时代建构人工智能辅助量刑系统的路径探讨[J].湘江青年法学,2018,4(1):68-87. 被引量：4
2李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
3冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
4李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：19
5钱大军.司法人工智能的中国进程:功能替代与结构强化[J].法学评论,2018,36(5):138-152. 被引量：53
6薛涛,王雅玲,穆楠.基于词义消歧的卷积神经网络文本分类模型[J].计算机应用研究,2018,35(10):2898-2903. 被引量：15
7叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：108
8脱婷,马慧芳,魏家辉,刘海姣.基于语义特征空间上下文的短文本表示学习[J].计算机工程与科学,2019,41(2):378-384. 被引量：1
9唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报,2019,47(6):1300-1308. 被引量：10
10马靖云.智慧司法的难题及其破解[J].华东政法大学学报,2019,22(4):110-117. 被引量：69

引证文献4

1于淼,陆娇,管政翔,陈柳娅.人工智能在司法量刑中的应用沿革与技术演进[J].西北工业大学学报（社会科学版）,2021,41(3):88-95.
2陈可嘉,刘惠.文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法[J].科学技术与工程,2021,21(29):12631-12637. 被引量：3
3郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：9
4董兵,罗创,郝宽公,李昕倩,刘安全.基于大样本数据的不规范航行通告识别方法[J].科学技术与工程,2024,24(23):9973-9979.

二级引证文献11

1郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：9
2朱明,陈一飞.面向物业投诉的字符级短文本分类模型[J].大众科技,2022,24(4):31-35. 被引量：1
3张杨帆,丁锰.改进的基于Transformer的双向编码器的对话文本识别[J].科学技术与工程,2022,22(29):12945-12953. 被引量：4
4淦亚婷,安建业,徐雪.基于深度学习的短文本分类方法研究综述[J].计算机工程与应用,2023,59(4):43-53. 被引量：16
5魏葳,耿一婷,吕倩,杨显军.基于Stacking集成学习算法的工作人员用车记录异常数据识别方法[J].计算机应用文摘,2023,39(7):124-126.
6唐善成,鲁彪,张雪,张莹,梁少君.面向汉字矢量图形特征的字向量表征方法[J].科学技术与工程,2023,23(16):6967-6973. 被引量：2
7毕忠勤,张锴,单美静,王世洋,曾振柄.基于图神经网络的多源异构知识增强对话模型[J].科学技术与工程,2024,24(17):7196-7204.
8王雨萱,万卫兵,程锋.工业生产设备故障领域问答系统的意图识别[J].科学技术与工程,2024,24(18):7746-7759.
9裴炳森,李欣,胡凯茜,孙泽宇.基于知识增强预训练模型的司法文本摘要生成[J].科学技术与工程,2024,24(20):8587-8597.
10张昱,冯亚寒,丁千惠.融合Word2Vec词嵌入的多核卷积神经网络音乐歌词多情感分类方法[J].科学技术与工程,2024,24(20):8598-8605.

1周康,曲卫东,杨艺琛.基于增强BiLSTM的网络文章核心实体识别[J].计算机技术与发展,2021,31(1):7-12. 被引量：2
2吴海燕.循环卷积神经网络在视频动作识别中的应用[J].电子技术（上海）,2020(10):18-19.
3王燕.基于少量样本的深度学习图像修复算法分析[J].信息与电脑,2021,33(4):59-61. 被引量：1
4古雪梅,刘嘉勇,程芃森,何祥.基于增强BiLSTM-CRF模型的推文恶意软件名称识别[J].计算机科学,2020,47(2):245-250. 被引量：6
5胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：11

科学技术与工程

2021年第9期

浏览历史

内容加载中请稍等...

基于BERT的诉讼案件违法事实要素自动抽取被引量：4

参考文献12

二级参考文献138

共引文献143

同被引文献48

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于BERT的诉讼案件违法事实要素自动抽取 被引量：4

参考文献12

二级参考文献138

共引文献143

同被引文献48

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于BERT的诉讼案件违法事实要素自动抽取被引量：4