基于BERT和BiLSTM的语义槽填充被引量：8

Semantic Slot Filling Based on BERT and BiLSTM

下载PDF

导出

摘要语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量。但是,随机词向量存在不具备语义和语法信息的缺点;预训练词向量存在“一词一义”的缺点,无法为模型提供具备上下文依赖的词向量。针对该问题,提出了一种基于预训练模型BERT和长短期记忆网络的深度学习模型。该模型使用基于Transformer的双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)产生具备上下文依赖的词向量,并将其作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入,最后利用Softmax函数和条件随机场进行解码。将预训练模型BERT和BiLSTM网络作为整体进行训练,达到了提升语义槽填充任务性能的目的。在MIT Restaurant Corpus,MIT Movie Corpus和MIT Movie trivial Corpus 3个数据集上,所提模型得出了良好的结果,最大F1值分别为78.74%,87.60%和71.54%。实验结果表明,所提模型显著提升了语义槽填充任务的F1值。 Semantic slot filling is an important task in the dialogue system,which aims to label each word of the input sentence correctly.Slot filling performance has a marked impact on the following dialog management module.At present,random word vector or pretrained word vector is usually used as the initialization word vector of the deep learningmodel used to solveslot filling task.However,the random word vector has no semantic and grammatical information,and the pre-trained word vector only pre-sent one meaning.Both of them cannot provide context-dependent word vector for the model.We proposed an end-to-end neural network model based on pre-trained model BERTand Long Short-Term Memory network(LSTM).First,the pre-trained model(BERT)encoded the input sentence as context-dependentword embedding.After that,the word embedding served as input to subsequent Bidirectional Long Short-Term Memory network(BiLSTM).Andusing the Softmax function and conditional random field to decode prediction labels finally.The pre-trained model BERT and BiLSTM networks were trained as a wholein order to improve the performance of semantic slot filling task.The model achieves F1 scores of 78.74%,87.60%and 71.54%on three data sets(MIT Restaurant Corpus,MIT Movie Corpus and MIT Movie trivial Corpus)respectively.The experimental results show that our model significantly improves the F1 value of Semantic slot filling task.

作者张玉帅赵欢李博 ZHANG Yu-shuai;ZHAO Huan;LI Bo(College of Computer Science and Electronic Engineering,Hunan University,Changsha 410082,China)

机构地区湖南大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2021年第1期247-252,共6页 Computer Science

基金国家重点研发计划(2018YFC0831800)。

关键词语义槽填充预训练模型长短期记忆网络上下文依赖词向量 Slot filling Pre-trained model Long short-term memory network Context-dependent Word embedding

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1侯丽仙,李艳玲,李成城.面向任务口语理解研究现状综述[J].计算机工程与应用,2019,55(11):7-15. 被引量：11
2徐梓翔,车万翔,刘挺.基于Bi-LSTM-CRF网络的语义槽识别[J].智能计算机与应用,2017,7(6):91-94. 被引量：5
3金宸,李维华,姬晨,金绪泽,郭延哺.基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2):29-37. 被引量：39

二级参考文献12

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
2赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
3罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(5):3-8. 被引量：19
4李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8
5方艳,周国栋.基于层叠CRF模型的词结构分析[J].中文信息学报,2015,29(4):1-7. 被引量：7
6任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
7张海楠,伍大勇,刘悦,程学旗.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,31(4):28-35. 被引量：77
8孙鑫,王厚峰.问答中的问句意图识别和约束条件分析[J].中文信息学报,2017,31(6):132-139. 被引量：4
9冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：51
10刘浏,王东波.命名实体识别研究综述[J].情报学报,2018,37(3):329-340. 被引量：155

共引文献52

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22
2陈国华.企业竞争的计策谋略[J].工厂管理,2000(2):18-19.
3欧阳恩,李作高,李昱熙,张晓艳.基于深度学习的电子病历命名实体识别及其在知识发现中的应用[J].中国卫生信息管理杂志,2018,15(4):469-473. 被引量：9
4董虎胜.基于长短时记忆网络的古诗词生成[J].现代计算机（中旬刊）,2018(11):18-21.
5周海华,曹春萍.基于BLSTM-CRF的领域知识点实体识别技术[J].软件,2019,40(2):1-5.
6石文浩,孟军,张朋,刘婵娟.融合CNN和Bi-LSTM的miRNA-lncRNA互作关系预测模型[J].计算机研究与发展,2019,56(8):1652-1660. 被引量：8
7程博,李卫红,童昊昕.基于BiLSTM-CRF的中文层级地址分词[J].地球信息科学学报,2019,21(8):1143-1151. 被引量：16
8杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.
9车金立,唐力伟,邓士杰,苏续军.基于BI-GRU-CRF模型的中文分词法[J].火力与指挥控制,2019,44(9):66-71. 被引量：8
10江明奇,严倩,李寿山.基于联合学习的跨领域法律文书中文分词方法[J].中文信息学报,2019,33(9):17-23. 被引量：4

同被引文献66

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：33
3周奇安,李舟军.基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法[J].中文信息学报,2020(5):82-90. 被引量：14
4江魁,余志航,陈小雷,李宇豪.基于BERT-CNN的Webshell流量检测系统设计与实现[J].计算机应用,2023,43(S01):126-132. 被引量：6
5王世昆,李绍滋,陈彤生.基于条件随机场的中医命名实体识别[J].厦门大学学报（自然科学版）,2009,48(3):359-364. 被引量：38
6郭宇航,秦兵,刘挺,李生.实体链指技术研究进展[J].智能计算机与应用,2014,4(5):9-13. 被引量：7
7张涛,刘康,赵军.一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用[J].中文信息学报,2015,29(2):58-67. 被引量：17
8昝红英,吴泳钢,贾玉祥,牛桂玲.基于多源知识的中文微博命名实体链接[J].山东大学学报（理学版）,2015,50(7):9-16. 被引量：3
9谭咏梅,王睿,李茂林.基于上下文信息和排序学习的实体链接方法[J].北京邮电大学学报,2015,38(5):33-36. 被引量：5
10武川,陆伟.基于上下文特征的短文本实体链接研究[J].情报科学,2016,34(2):144-147. 被引量：4

引证文献8

1郭知鑫,邓小龙.基于BERT-BiLSTM-CRF的法律案件实体智能识别方法[J].北京邮电大学学报,2021,44(4):129-134. 被引量：19
2胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(9):119-122. 被引量：8
3田俊鹏,李晓戈,马鲜艳.多属性推荐算法在企业研发服务系统中的应用[J].小型微型计算机系统,2023,44(1):8-13. 被引量：2
4牛泽群,李晓戈,强成宇,韩伟,姚怡,刘洋.基于图注意力神经网络的实体消歧方法[J].山东大学学报（理学版）,2024,59(3):71-80. 被引量：1
5高子雄,蒋盛益,欧炎镁,禤镇宇.基于多任务蒸馏的意图识别和槽位填充[J].陕西师范大学学报（自然科学版）,2024,52(3):96-104. 被引量：1
6赵小丹,胡林.基于深度学习的农业科技政策知识抽取方法研究[J].数据与计算发展前沿（中英文）,2024,6(4):106-115.
7袁平宇,邱林.基于BERT的多模型融合的Web攻击检测方法[J].计算机工程,2024,50(11):197-206.
8李忠伟,李明轩,李永,张文丰.基于鸟类迁徙关联要素数据的知识图谱构建[J].计算机工程与设计,2024,45(12):3704-3711.

二级引证文献31

1张硕,赵卓峰,刘晨.基于图卷积网络的产业领域科技服务资源命名实体识别[J].计算机与数字工程,2023,51(1):20-27.
2韦入铭,陈若愚,李晗,刘旭红.基于深度学习与文本计量的技术趋势分析[J].计算机科学,2022,49(S02):37-42. 被引量：3
3田学志,王同喜.基于多视角匹配和比较-聚合框架的文本匹配模型[J].电脑知识与技术,2022,18(4):103-105.
4郭宇,李英娜,刘爱莲,马鑫堃.基于深度学习的电力安全作业实体识别方法[J].电视技术,2022,46(1):67-72. 被引量：6
5傅源坤,柳先辉,赵卫东.基于BERT的智能制造装备命名实体识别方法[J].制造业自动化,2022,44(9):120-124. 被引量：1
6付美玲,薛磊,徐英.基于BERT-BiLSTM-CRF模型的电子目标图谱实体抽取方法[J].空天预警研究学报,2022,36(3):206-210.
7王洁,夏晓明.基于机器阅读理解的BiLSTM-BiDAF命名实体识别[J].华南理工大学学报（自然科学版）,2022,50(12):80-88. 被引量：3
8华斌,魏尹娟,吴诺.基于异质信息网络的电子政务平台治理问题发现方法研究[J].情报理论与实践,2023,46(4):184-194.
9胡文烨,许鸿奎,郭旭斌,赵京政.基于词嵌入和BiLCNN-Attention混合模型的政务文本分类方法[J].计算机时代,2023(6):92-95. 被引量：1
10蒲攀,张越,刘勇,聂炎明,黄铝文.Transformer优化及其在苹果病虫命名实体识别中的应用[J].农业机械学报,2023,54(6):264-271. 被引量：3

1贾丽娜.基于大数据处理平台的计算任务调度的配置优化[J].电脑编程技巧与维护,2021(1):106-107. 被引量：1
2Gang ZHANG,Zongshui WANG,Hong ZHAO.Relationships Among Perceived Value, Satisfaction, and e-Trust: An e-CRM View of Online Restaurant Consumption[J].Journal of Systems Science and Information,2020,11(5):458-475. 被引量：1
3王梦媛,鲍慧,李保罡,赵伟,孔凡伟.基于电力包的MEC服务器直流供能方法[J].电力系统保护与控制,2020,48(24):103-110. 被引量：1
4Haoqi Zhou,Shuwei Xu,Maohua Li.Peregrine Rogue Waves Generated by the Interaction and Degeneration of Soliton-Like Solutions: Derivative Nonlinear Schrödinger Equation[J].Journal of Applied Mathematics and Physics,2020,8(12):2824-2835.

计算机科学

2021年第1期

浏览历史

内容加载中请稍等...

基于BERT和BiLSTM的语义槽填充被引量：8

参考文献3

二级参考文献12

共引文献52

同被引文献66

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于BERT和BiLSTM的语义槽填充 被引量：8

参考文献3

二级参考文献12

共引文献52

同被引文献66

引证文献8

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于BERT和BiLSTM的语义槽填充被引量：8