基于BERT的混合字词特征中文文本摘要模型被引量：5

HYBRID WORD-CHARACTER MODEL FOR CHINESE SUMMARIZATION BASED ON BERT

下载PDF

导出

摘要 BERT预训练语言模型在一系列自然语言处理问题上取得了突破性进展,对此提出探究BERT预训练模型在中文文本摘要上的应用。探讨文本摘要信息论框架和ROUGE评分的关系,从信息论角度分析中文词级粒度表示和字级粒度表示的信息特征,根据文本摘要信息压缩的特性,提出采用全词遮罩(Whole Word Masking)的中文预训练语言模型BERT_wwm作为编码器提取词级粒度信息特征,采用多层Transformer作为解码器以字为粒度生成摘要的混合字词特征中文文本摘要模型。分别以BERT_base_Chinese、BERT_wwm_Chinese、BERT_wwm_ext_Chinese和RoBERTa_wwm_ext_Chinese四种预训练语言模型作为中文词级信息特征编码器,在LCSTS数据集上进行实验,采用ROUGE作为评价指标。结果表明,RoBERTa_wwm_ext_Chinese+Transformer的编码器-解码器框架的ROUGE-1、ROUGE-2和ROUGE-L的F1评分分别达到了44.60、32.33和41.37,性能超过了HWC+Transformer方法。 BERT pretrained language model has achieved breakthrough in many natural language processing tasks.This paper attempts to explore the application of BERT in Chinese text summarization.We discussed the relation between the text summarization information theory framework and ROUGE score,and we analyzed the information characteristics between Chinese word level granularity representation and character level granularity representation in the perspective of information theory.Based on the characteristics of information compression,we proposed a hybrid word-character feature Chinese text summarization model which used the whole word masking BERT_wwm as encoder,and multiple transformers as decoder.We used BERT_base_Chinese,BERT_wwm_Chinese,BERT_wwm_ext_Chinese and RoBERTa_wwm_ext_Chinese as Chinese word level information feature extracted encoder,and carried out experiments on LCSTS dataset using ROUGE as the evaluation method.The results show that,the F1 scores of ROUGE-1,ROUGE-2 and ROUGE-L in RoBERTa_wwm_ext_Chinese+Transformer architecture are 44.60,32.33 and 41.37,which exceed the HWC+Transformer method.

作者劳南新王帮海 Lao Nanxin;Wang Banghai(School of Computer,Guangdong University of Technology,Guangzhou 510006,Guangdong,China)

机构地区广东工业大学计算机学院

出处《计算机应用与软件》北大核心 2022年第6期258-264,296,共8页 Computer Applications and Software

基金国家自然科学基金项目(61672007)。

关键词中文文本摘要信息论 BERT语言模型混合字词特征 Chinese text summarization Information theory BERT language model Hybrid word-character feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(5):1-16. 被引量：19

二级参考文献4

1林莉媛,王中卿,李寿山,周国栋.基于PageRank的中文多文档文本情感摘要[J].中文信息学报,2014,28(2):85-90. 被引量：19
2莫鹏,胡珀,黄湘冀,何婷婷.基于超图的文本摘要与关键词协同抽取研究[J].中文信息学报,2015,29(6):135-140. 被引量：11
3庞超,尹传环.基于分类的中文文本摘要方法[J].计算机科学,2018,45(1):144-147. 被引量：9
4王继成,武港山,周源远,张福炎.一种篇章结构指导的中文Web文档自动摘要方法[J].计算机研究与发展,2003,40(3):398-405. 被引量：43

共引文献18

1王子牛,汤灿,高建瓴.基于指针机制与门控卷积单元的抽象式文本摘要方法[J].软件,2020,41(10):260-263.
2谭金源,刁宇峰,祁瑞华,林鸿飞.基于BERT-PGN模型的中文新闻文本自动摘要生成[J].计算机应用,2021,41(1):127-132. 被引量：12
3李伯涵,李红莲.一种融合关键词的生成式摘要方法[J].计算机应用研究,2021,38(11):3289-3292. 被引量：2
4阮宁宁,王宏生.基于指针网络的抽象式文本摘要方法研究[J].长江信息通信,2021,34(10):50-52. 被引量：1
5周蔚,王兆毓,魏斌.面向法律裁判文书的生成式自动摘要模型[J].计算机科学,2021,48(12):331-336. 被引量：7
6崔卓,李红莲,张乐,吕学强.一种融合义原的中文摘要生成方法[J].中文信息学报,2022,36(6):146-154.
7祝超群,彭艳兵.基于集成学习的文本摘要抽取方法研究[J].计算机与数字工程,2022,50(7):1540-1544. 被引量：1
8张艺瀚,李贵卿.交互界面和工作特征对人机交互质量的影响研究[J].重庆理工大学学报（自然科学）,2022,36(9):211-218. 被引量：2
9刘高军,王一如,王昊.基于BERTScore指导的文本摘要技术[J].电子设计工程,2022,30(23):1-5.
10许文军,郑虹,郑肇谦.基于ALBERT预训练模型生成式文本摘要[J].长春工业大学学报,2022,43(6):719-725. 被引量：1

同被引文献39

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
2张建华,陈家骏.自然语言生成综述[J].计算机应用研究,2006,23(8):1-3. 被引量：27
3郭绍华.网络信息检索技术的现状及发展趋势[J].黑龙江教育学院学报,2011,30(6):200-202. 被引量：2
4冯勇,刘瑶,徐红艳.一种基于标签用户模型的个性化信息检索方法[J].小型微型计算机系统,2014,35(9):2004-2008. 被引量：9
5庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：466
6黄鸣奋.后信息爆炸时代的数码阅读[J].福建论坛（人文社会科学版）,2015(2):59-67. 被引量：11
7刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：956
8杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：389
9曹娟,龚隽鹏,张鹏洲.数据到文本生成研究综述[J].计算机技术与发展,2019,29(1):80-84. 被引量：12
10徐馨韬,柴小丽,谢彬,沈晨,王敬平.基于改进TextRank算法的中文文本摘要提取[J].计算机工程,2019,45(3):273-277. 被引量：24

引证文献5

1龚永罡,郭远南.基于TF-IDF和word2Vec的中文文本自动摘要模型[J].中国新通信,2023,25(2):65-67. 被引量：5
2吴晨.一种基于Word2Vec的M-TextRank文本摘要模型[J].信息技术与信息化,2023(5):125-128. 被引量：1
3张舜标.基于多尺度语义协同网络的高校网络舆论情感分类研究[J].广东农工商职业技术学院学报,2023,39(3):62-67.
4马廷淮,于信,荣欢.基于中间域语义传导的跨领域文本生成方法[J].计算机研究与发展,2023,60(12):2844-2863.
5冯灿锐,安建业,刘志勇.面向企业的报告自动生成方法研究综述[J].计算机科学与应用,2022,12(10):2307-2317.

二级引证文献6

1吴晨.一种基于Word2Vec的M-TextRank文本摘要模型[J].信息技术与信息化,2023(5):125-128. 被引量：1
2蔡桢杰,李建敦,李原驰,朱婧姝,奚梦玲,孟浩杰.LSTM多模态虚假评论检测[J].福建电脑,2023,39(8):32-36.
3冷泳林,郭颖,孙晓红,曲珮漪.基于增量聚类的电子政务短文本信息挖掘算法研究[J].渤海大学学报（自然科学版）,2023,44(3):262-269.
4王栋,刘宁,杨明杰,赵书函.基于非结构化数据和CNN-BiLSTM的配电网设备缺陷分析模型构建[J].自动化与仪器仪表,2024(3):106-109. 被引量：1
5王云丽,杨文焕,邵云霞,成彬,陈志宾.基于VOSviewer的测评机构市场竞争特征分析模型的构建[J].现代信息科技,2024,8(7):151-160.
6张瑞年,高常青,时子皓,刘永旭,杨波.主体-行为-客体语义分析构建技术功效矩阵[J].济南大学学报（自然科学版）,2024,38(5):589-598.

1黄菲菲.BERT的图模型文本摘要生成方法研究[J].现代信息科技,2022,6(2):91-95. 被引量：1
2申高宁,陈志翔,王辉,陈姮.基于挤压激励网络的恶意代码家族检测方法[J].信息技术与网络安全,2022,41(6):1-9. 被引量：1
3徐春,李胜楠.融合BERT-WWM和指针网络的旅游知识图谱构建研究[J].计算机工程与应用,2022,58(12):280-288. 被引量：8
4HUANG Lilian,SUN Yi,XIANG Jianhong,WANG Linyu.Image encryption based on a novel memristive chaotic system,Grain-128a algorithm and dynamic pixel masking[J].Journal of Systems Engineering and Electronics,2022,33(3):534-550.
5David Owino Manoa,Francis Mwaura.Predator-Proof Bomas as a Tool in Mitigating Human-Predator Conflict in Loitokitok Sub-County Amboseli Region of Kenya[J].Natural Resources,2016,7(1):28-39.
6Abiy Wogderes Zinna,Karuturi Venkata Suryabhagavan.Remote Sensing and GIS Based Spectro-Agrometeorological Maize Yield Forecast Model for South Tigray Zone, Ethiopia[J].Journal of Geographic Information System,2016,8(2):282-292.
7覃淋.等比数列求和问题的历史[J].中学生数学,2022(11):27-31. 被引量：1
8Jayant J. Chopade,Niteenkumar P. Futane.Design of Optimized Wavelet Packet Algorithm to Improve Perception of Sensorineural Hearing Impaired[J].Journal of Signal and Information Processing,2016,7(1):18-26.
9王璐,彭涛,高慧茹,赵文月,王燕燕.经内镜黏膜下隧道肿瘤切除术和黏膜下肿瘤挖除术治疗固有肌层来源黏膜下肿瘤比较[J].中华保健医学杂志,2022,24(2):115-117. 被引量：5
10David Owino Manoa,Tim Oloo.Community Perspectives on the Use of Recycled Plastic Posts in Mitigating Livestock Predation in Amboseli Ecosystem, Kenya[J].Natural Resources,2016,7(5):265-270.

计算机应用与软件

2022年第6期

浏览历史

内容加载中请稍等...

基于BERT的混合字词特征中文文本摘要模型被引量：5

参考文献1

二级参考文献4

共引文献18

同被引文献39

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于BERT的混合字词特征中文文本摘要模型 被引量：5

参考文献1

二级参考文献4

共引文献18

同被引文献39

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于BERT的混合字词特征中文文本摘要模型被引量：5