基于深度学习的语言模型研究进展被引量：46

Language Models Based on Deep Learning: A Review

下载PDF

导出

摘要语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望. Language model, to express implicit knowledge of language, has been widely concerned as a basic problem of natural language processing in which the current research hotspot is the language model based on deep learning. Through pre-training and fine-tuning techniques, language models show their inherently power of representation, also improve the performance of downstream tasks greatly. Around the basic principles and different application directions, this study takes the neural probability language model and the pre-training language model as a pointcut for combining deep learning and natural language processing. The application as well as challenges of neural probability and pre-training model is introduced, which is based on the basic concepts and theories of language model.Then, the existing neural probability, pre-training language model include their methods are compared and analyzed. In addition, the training methods of pre-training language model are elaborated from two aspects of new training tasks and improved network structure. Meanwhile, the current research directions of pre-training model in scale compression, knowledge fusion, multi-modality, and cross-language are summarized and evaluated. Finally, the bottleneck of language model in natural language processing application is summed up, afterwards the possible future research priorities are prospected.

作者王乃钰叶育鑫刘露凤丽洲包铁彭涛 WANG Nai-Yu;YE Yu-Xin;LIU Lu;FENG Li-Zhou;BAO Tie;PENG Tao(College of Computer Science and Technology,Jilin University,Changchun 130012,China;College of Software,Jilin University,Changchun 130012,China;Key Laboratory of Symbol Computation and Knowledge Engineering for Ministry of Education(Jilin University),Changchun 130012,China;Department of Computer Science,University of Illinois at Chicago,Chicago,IL 60607,USA)

机构地区吉林大学计算机科学与技术学院吉林大学软件学院符号计算与知识工程教育部重点实验室(吉林大学) Department of Computer Science

出处《软件学报》 EI CSCD 北大核心 2021年第4期1082-1115,共34页 Journal of Software

基金国家自然科学基金(61872163,61806084) 吉林省教育厅项目(JJKH20190160KJ)。

关键词语言模型预训练深度学习自然语言处理神经语言模型 language model pre-training deep learning natural language processing neural language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈旭,刘鹏鹤,孙毓忠,沈曦,张磊,王晓青,孙晓平,程伟.面向不均衡医学数据集的疾病预测模型研究[J].计算机学报,2019,42(3):596-609. 被引量：44
2张志昌,张珍文,张治满.基于IndRNN-Attention的用户意图分类[J].计算机研究与发展,2019,56(7):1517-1524. 被引量：8
3周俊佐,朱宗奎,何正球,陈文亮,张民.面向人机对话意图分类的混合神经网络模型[J].软件学报,2019,30(11):3313-3325. 被引量：11
4李超,柴玉梅,南晓斐,高明磊.基于深度学习的问题分类方法研究[J].计算机科学,2016,43(12):115-119. 被引量：25
5杜慧,徐学可,伍大勇,刘悦,余智华,程学旗.基于情感词向量的微博情感分类[J].中文信息学报,2017,31(3):170-176. 被引量：21
6朱苏阳,李寿山,周国栋.基于对抗式神经网络的多维度情绪回归[J].软件学报,2019,30(7):2091-2108. 被引量：2
7刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871. 被引量：28
8梁小波,任飞亮,刘永康,潘凌峰,侯依宁,张熠,李妍.N-Reader:基于双层Self-attention的机器阅读理解模型[J].中文信息学报,2018,32(10):130-137. 被引量：11

二级参考文献15

1张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
2余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
5孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
6唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
7徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：382
8李茹,宋小香,王文晶.基于汉语框架网的中文问题分类[J].计算机工程与应用,2009,45(31):111-114. 被引量：8
9田卫东,高艳影,祖永亮.基于自学习规则和改进贝叶斯结合的问题分类[J].计算机应用研究,2010,27(8):2869-2871. 被引量：11
10姚源林,王树伟,徐睿峰,刘滨,桂林,陆勤,王晓龙.面向微博文本的情绪标注语料库构建[J].中文信息学报,2014,28(5):83-91. 被引量：17

共引文献138

1向菲,谢耀谈.基于混合采样与迁移学习的患者评论识别模型[J].数据分析与知识发现,2020,4(2):39-47. 被引量：2
2刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：2
3谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
4阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
5张杜娟,苏曦.基于改进极限学习机的疾病预测研究[J].电子测量技术,2020(9):56-60. 被引量：1
6周岚.浅析基于C语言的单片机技术[J].软件工程,2016,19(5):30-31. 被引量：3
7胡红磊.试论译者能力的提高[J].上海建桥学院学报,2017(3):54-58.
8杨兰.基于机器码学习的跨域应用程序的Web技术研究[J].自动化与仪器仪表,2017(12):181-183. 被引量：1
9罗帆,王厚峰.结合RNN和CNN层次化网络的中文文本情感分类[J].北京大学学报（自然科学版）,2018,54(3):459-465. 被引量：21
10高超,杨思春,万家山.融合类别线索词的中文问题分类[J].苏州科技大学学报（自然科学版）,2018,35(2):73-78. 被引量：2

同被引文献472

1黄文森,廖圣清.同质的连接、异质的流动:社交网络新闻生产与扩散机制[J].新闻与传播研究,2021(2):18-36. 被引量：17
2杨宏山,李沁.政策试验的注意力调控与适应性治理[J].行政论坛,2021,28(3):59-67. 被引量：24
3向玉琼.注意力竞争的生成与反思:论政策议程中的注意力生产[J].行政论坛,2021(1):74-81. 被引量：17
4陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：5
5刘丹青.语言单位的义项非独立观[J].世界汉语教学,2021(2):147-165. 被引量：8
6沈石,宋长青,程昌秀,高剑波,叶思菁.GDELT:感知全球社会动态的事件大数据[J].世界地理研究,2020,0(1):71-76. 被引量：29
7祁磊,于沛泽,高阳.弱监督场景下的行人重识别研究综述[J].软件学报,2020(9):2883-2902. 被引量：9
8孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
9范齐楠,孔存良,杨麟儿,杨尔弘.基于BERT与柱搜索的中文释义生成[J].中文信息学报,2021,35(11):80-90. 被引量：2
10宋挺,郭展成,何世柱,刘康,赵军,刘升平.基于动态词遮掩的句子匹配预训练模型[J].中文信息学报,2021,35(11):43-50. 被引量：1

引证文献46

1阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
2袁广盛,安宁.浅析话语分析方法在地缘环境解析中的应用[J].热带地理,2021,41(6):1132-1141. 被引量：5
3郑丽敏,任乐乐.采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别[J].农业工程学报,2021,37(20):211-218. 被引量：4
4张宇,郭文忠,林森,文朝武,龙洁花.深度学习与知识推理相结合的研究综述[J].计算机工程与应用,2022,58(1):56-69. 被引量：6
5李超凡,马凯.基于词嵌入结合BiLSTM-CRF模型的病历实体识别[J].中国数字医学,2022,17(4):32-37. 被引量：3
6王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：49
7徐浩然,王勇军,黄志坚,解培岱,范书珲.基于前馈神经网络的编译器测试用例生成方法[J].软件学报,2022,33(6):1996-2011. 被引量：6
8葛志辉,洪龙翔,李陶深,叶进.融合动态掩码预训练与膨胀卷积的实体识别[J].广西大学学报（自然科学版）,2022,47(3):692-703. 被引量：1
9杨冰.基于深度学习的英语短语译文智能校对系统[J].自动化与仪器仪表,2022(8):185-188. 被引量：1
10郝雅茹,董力,许可,李先贤.预训练语言模型的可解释性研究进展[J].广西师范大学学报（自然科学版）,2022,40(5):59-71. 被引量：4

二级引证文献124

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
4刘光军,马东群.工程咨询服务的智能革命:大模型背景下的能力提升[J].中国工程咨询,2023(12):52-57. 被引量：1
5刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：4
6罗志伟,王敏.批判地缘政治视角下的国家品牌实践--以海南自由贸易港为例[J].热带地理,2022,42(7):1169-1179.
7赵良,张赵玥,廖子逸,王玲.用BERT和改进PCNN模型抽取食品安全领域关系[J].农业工程学报,2022,38(8):263-270. 被引量：7
8王东波,陆昊翔,彭运海,包平,徐晨飞.面向《方志物产》的自动断句深度学习模型构建研究[J].中国科技史杂志,2022,43(2):192-203. 被引量：4
9孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：3
10林立涛,王东波,刘江峰,李斌,冯敏萱.数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50. 被引量：10

1张玉金.美术师范教育“缄默知识”的开发策略研究[J].美与时代（美术学刊）（中）,2020(12):91-92.
2邵云华,曾光远.杭州市蚕桑产业发展现状及对策建议[J].蚕桑通报,2020,51(4):29-30. 被引量：2
3杨磊,黄玮.浅议新时代大学生就业精准指导和帮扶[J].数码设计,2021,10(8):153-153.
4刘举,李建玲.高校文科教育的再职业化与精神育人导向[J].牡丹江教育学院学报,2021(2):18-21.
5王勇超,杨英宝,曹钰,邢卫.基于对抗学习和全局知识信息的关系检测技术研究[J].计算机应用研究,2021,38(5):1327-1330. 被引量：2
6高漪萏,尹慧斐,金海青.基于大数据处理的胃肠外科风险管理方法研究[J].中医药管理杂志,2021,29(6):180-181. 被引量：2
7乔源,张捷,陈燕红.一种小型的新式上肢康复机器人的设计与研究[J].工业控制计算机,2021,34(4):21-23.
8胡妤婕,常建慧,张健.语义区域风格约束下的图像合成[J].计算机科学,2021,48(2):134-141.
9黄丽娟.关于移动空间的书写——旅行文学批评谱系及其跨学科交叉阐释[J].外国文学,2021(2):134-144. 被引量：6

软件学报

2021年第4期

浏览历史

内容加载中请稍等...

基于深度学习的语言模型研究进展被引量：46

参考文献8

二级参考文献15

共引文献138

同被引文献472

引证文献46

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

基于深度学习的语言模型研究进展 被引量：46

参考文献8

二级参考文献15

共引文献138

同被引文献472

引证文献46

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

基于深度学习的语言模型研究进展被引量：46