预训练语言模型BERT在下游任务中的应用被引量：6

Application of pre-trained language model BERT in downstream tasks

下载PDF

导出

摘要 BERT模型是一种全新的语言模型,其采用微调的双向Transformer编码实现,利用fine-tuning的方式进行预训练,实际使用时,只需要根据具体任务额外增加一个输出层就可以用来解决特定任务,克服了传统词嵌入模型对不同任务定义不同网络结构的缺点。为了更好地理解BERT模型及其效果,首先概述BERT模型的原理,以及BERT的预训练策略,然后介绍了如何将BERT模型应用于3个下游任务:文本分类、机器阅读理解和文本摘要,并通过对比实验展示了BERT模型的优势。最后,对未来研究方向进行了展望。 The BERT model is a new language model,which is implemented by fine-tuned bidirectional Transformer coding.Using Fine-Turning method to get the pre-trained model,it only needs to add an additional output layer according to specific tasks,then it can be used to solve the tasks,thus overcoming the shortcomings of the traditional word embedding model which needs to define different tasks for different network structure.In order to understand the BERT model and its effect better,the principle of the model is reviewed,the pretrain strategy of the model is introduced in this article.Then how to apply the BERT model to the three downstream tasks:text classification,machine reading comprehension,and text summary are introduced,and the advantages of the BERT model through comparative experiments are demonstrated.Finally,the future research direction is prospected.

作者段瑞雪巢文宇张仰森 DUAN Ruixue;CHAO Wenyu;ZHANG Yangsen(Computer School,Beijing Information Science&Technology,Beijing 100192,China;School of Information Management,Beijing Information Science&Technology,Beijing 100192,China;Beijing Laboratory of National Economic Security Early Warming Project,Beijing 100044,China)

机构地区北京信息科技大学计算机学院北京信息科技大学信息管理学院国家经济安全预警工程北京实验室

出处《北京信息科技大学学报（自然科学版）》 2020年第6期77-83,共7页 Journal of Beijing Information Science and Technology University

基金北京市自然科学青年基金项目(4204100) 北京信息科技大学校基金(1825023) 北京信息科技大学2020年促进高校内涵发展-大学生科研训练项目(5102010805) 北京信息科技大学2019年度‘实培计划'项目资助。

关键词预训练机器阅读理解文本分类文本摘要 pre-train machine reading comprehension text classification text summarization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王雯,赵衎衎,李翠平,陈红,孙辉.Spark平台下的短文本特征扩展与分类研究[J].计算机科学与探索,2017,11(5):732-741. 被引量：9
2张禹尧,蒋玉茹,毛腾,张仰森.MCA-Reader:基于多重联结机制的注意力阅读理解模型[J].中文信息学报,2019,33(10):73-80. 被引量：4
3牛罡,罗爱宝,商琳.半监督文本分类综述[J].计算机科学与探索,2011,5(4):313-323. 被引量：10
4王小捷,白子薇,李可,袁彩霞.机器阅读理解的研究进展[J].北京邮电大学学报,2019,42(6):1-9. 被引量：8

二级参考文献42

1Day N E. Estimating the components of a mixture of normal distributions[J]. Biometrika, 1969, 56(3):463-474.
2Dempster A, Laird N, Rubin D. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society: Series B, 1977, 39(1): 1-38.
3Miller D J, Uyar H. A generalized Gaussian mixture classifier with learning based on both labelled and unlabelled data[C]//Advances in Neural Information Processing Systems 9: Proceedings of the 1996 Conference. Cambridge, MA, USA: MIT Press, 1996: 783-787.
4Nigam K, McCallum A, Thrun S, et al. Learning to classify text from labeled and unlabeled documents[C]// Proceedings of the 15th National/10th Conference on Artificial Intelligence/Innovative Applications of Artificial Intelligence. Menlo Park, CA, USA: AAAI Press, 1998: 792-799.
5Baluja S. Probabilistic modeling for face orientation discrimination: learning from labeled and unlabeled examples[C]//Advances in Neural Information Processing Systems 11: Proceedings of the 1998 Conference. Cambridge, MA, USA: MIT Press, 1998: 854-860.
6Joachims T. Transductive inference for text classificationusing support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann, 1999: 200-209.
7Blum A, Chawla S. Learning from labeled and unlabeled data using graph mincuts[C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann, 2001: 19-26.
8Szummer M, Jaakkola T. Partially labeled classification with Markov random walks[C]//Advances in Neural Information Processing Systems 14: Proceedings of the 2001 Conference. Cambridge, MA, USA: MIT Press, 2001: 945-952.
9Chapelle O, Weston J, Schoelkopf B. Cluster kernels for semi-supervised learning[C]//Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference. Cambridge, MA, USA: MIT Press, 2002: 585-592.
10Zhou D, Bousquet O, Lal T, et al. Learning with local and global consistency[C]//Advances in Neural Information Processing Systems 16: Proceedings of the 2003 Conference. Cambridge, MA, USA: MIT Press, 2003: 321-328.

共引文献27

1李思男,李宁,李战怀.多标签数据挖掘技术:研究综述[J].计算机科学,2013,40(4):14-21. 被引量：31
2张积洪,王慧敏,陈维兴.基于数据挖掘的空调机组故障预测研究[J].测控技术,2015,34(8):37-40. 被引量：4
3张积洪,王慧敏,陈维兴,任磊.基于数据挖掘的静变电源故障预测研究[J].测控技术,2015,34(10):19-22. 被引量：1
4孙毅刚,曲睿,陈维兴,王慧敏.面向数据挖掘的静态电源综合故障诊断研究[J].计算机测量与控制,2015,23(10):3274-3276. 被引量：3
5李振兴,王松.基于卡方特征和BTM融合的短文本分类方法[J].兰州交通大学学报,2016,35(1):36-41. 被引量：1
6卜华龙,夏静,郑尚志.一种基于ECVM的Tri-training半监督垃圾邮件检测算法[J].宿州学院学报,2016,31(8):105-107.
7李芳芳,王占刚.基于TF-IDF改进算法和喜好度的视频用户分类[J].软件,2017,38(7):97-102.
8张松清,刘智国.一种基于半监督学习的工控网络入侵检测方法[J].信息技术与网络安全,2018,37(1):44-47. 被引量：3
9刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
10李洋,冯早,黄国勇,朱雪峰.基于DT-CWT和S4VM的埋地排水管道堵塞故障识别研究[J].电子科技,2018,31(10):33-38. 被引量：3

同被引文献78

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：14
3吴士存.民国时期的南海诸岛问题[J].民国档案,1996(3):127-132. 被引量：34
4李金明.中国南海疆域研究的问题与前瞻[J].南洋问题研究,2001(3):86-95. 被引量：10
5赵筱媛,苏竣.基于政策工具的公共科技政策分析框架研究[J].科学学研究,2007,25(1):52-56. 被引量：351
6董峰,付宇卓.基于LLVM架构的ARM后端移植[J].信息技术,2007,31(7):38-41. 被引量：5
7鲁强,金伟祖.基于FMM和CRFs双层分词模型的研究[J].电脑知识与技术,2008(10):166-168. 被引量：1
8施国良.国内外分面分类法基本理论研究述评[J].图书馆学研究,2008(12):2-5. 被引量：9
9穆建军.中小型烟草零售终端卷烟陈列方式初探[J].科技风,2012(16):192-192. 被引量：3
10李敏,王振蒙,闫晨刚.分面分类法在电子商务网站中的应用调查分析[J].图书馆研究,2013,43(1):55-58. 被引量：7

引证文献6

1沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：14
2彭玉芳,石进,徐浩,杨海平.基于BERT和分面分类的多标签的南海证据性数据分类研究[J].图书馆杂志,2022,41(5):102-108. 被引量：4
3王淳睿,何先波,易洋.基于BERT模型的指令集多标签分类研究[J].智能计算机与应用,2022,12(10):75-78. 被引量：2
4郭振东,林民,李成城,赵佳鹏.基于BERT-CRF的领域词向量生成研究[J].计算机工程与应用,2022,58(21):156-162. 被引量：2
5刘雁兵,肖骏,刘晓蓉,王义新,汪伟飞,吴凌翔.基于卷烟陈列识别和品牌文本表示的销量预测方法[J].无线电工程,2023,53(3):534-541.
6肖雪丽,廖常辉,李惠仪.一种基于深度学习的档案文件齐全性检验方法[J].信息记录材料,2024,25(3):198-200.

二级引证文献22

1高茂,张丽萍.融合多模态资源的教育知识图谱的内涵、技术与应用研究[J].计算机应用研究,2022,39(8):2257-2267. 被引量：14
2宋冠谕,程登,张森,刘威,丁晓雯.基于BERT的语音文本二分类方法[J].计算机应用文摘,2022,38(18):96-98.
3卢小宾,鲁国轩,杨冠灿,祁天娇.政府网站开放公文主题分类自动标注方法[J].档案学通讯,2022(5):19-27. 被引量：4
4王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：9
5冯梦莹,白如江,张玉洁,王效岳,耿振东,王志民.面向数字人文的稷下思想自动分类研究[J].图书情报工作,2022,66(19):26-35. 被引量：1
6刘江峰,林立涛,刘畅,何洪旭,吴娜,沈思,王东波.深度学习驱动的海量人文社会科学学术文献学科分类研究[J].情报理论与实践,2023,46(2):71-81. 被引量：11
7周海波,李天.基于BERT-CNN中间任务转移模型的短文本讽刺文本分类研究[J].智能计算机与应用,2023,13(5):156-160. 被引量：2
8杨森淇,段旭良,肖展,郎松松,李志勇.基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J].计算机应用,2023,43(5):1461-1466. 被引量：5
9曹玲静,张志强.政策信息学视角下政策文本量化方法研究进展[J].图书与情报,2022(6):70-82. 被引量：12
10于益民.虚假评论对于产品购买意愿的影响--基于BERT模型的用户评论研究[J].技术与市场,2023,30(6):176-180.

1李娜.湖南省食品产业现状及问题调研研究[J].市场调查信息（综合版）,2020(9):31-31.
2段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：71
3亚科,郝露.电力生产物资全生命周期可视化系统的开发与应用[J].企业管理,2019(S01):76-77. 被引量：1
4无.郑州市科技局领导莅临万江集团评审考察[J].地热能,2020(6):21-21.
5王星.中华民族共同体的全景观察[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):60-68. 被引量：2
6陈慧莹,寇月,申德荣,聂铁铮.以社区发现为导向的网络嵌入模型研究[J].计算机与数字工程,2020,48(12):2821-2825.

北京信息科技大学学报（自然科学版）

2020年第6期

浏览历史

内容加载中请稍等...

预训练语言模型BERT在下游任务中的应用被引量：6

参考文献4

二级参考文献42

共引文献27

同被引文献78

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

预训练语言模型BERT在下游任务中的应用 被引量：6

参考文献4

二级参考文献42

共引文献27

同被引文献78

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

预训练语言模型BERT在下游任务中的应用被引量：6