基于预训练表示模型的英语词语简化方法被引量：4

English Lexical Simplification Based on Pretrained Language Representation Modeling

下载PDF

导出

摘要词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%. Lexical simplification(LS)aims to replace complex words in a given sentence with their simpler alternatives of equivalent meaning,so as to simplify the sentence.Recently unsupervised lexical simplification approaches only rely on the complex word itself regardless of the given sentence to generate candidate substitutions,which will inevitably produce a large number of spurious candidates.Therefore,we present a lexical simplification approach BERT-LS based on pretrained representation model BERT,which exploits BERT to generate substitute candidates and rank candidates.In the step of substitute generation,BERT-LS not only does not rely on any linguistic database and parallel corpus,but also fully considers both the given sentence and the complex word during generating candidate substitutions.In the step of substitute ranking,BERT-LS employs five efficient features,including BERT's prediction ranking,BERT-based language model and the paraphrase database PPDB,in addition to the word frequency and word similarity commonly used in other LS methods.Experimental results show that our approach obtains obvious improvement compared with these baselines,outperforming the state-of-the-art by 29.8 Accuracy points on three well-known benchmarks.

作者强继朋钱镇宇李云袁运浩朱毅 QIANG Ji-Peng;QIAN Zhen-Yu;LI Yun;YUAN Yun-Hao;ZHU Yi(School of Information Engineering,Yangzhou University,Yangzhou 225127)

机构地区扬州大学信息工程学院

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第8期2075-2087,共13页 Acta Automatica Sinica

基金国家自然科学基金(62076217,61906060,61703362) 江苏省自然科学基金(BK20170513)资助。

关键词词语简化候选词生成候选词排序预训练语言表示模型 Lexical simplification substitution generation substitution ranking bidirectional encoder representations from transformers

分类号 H313 [语言文字—英语] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献8

1强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：1
2程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：11
3吴思远,蔡建永,于东,江新.文本可读性的自动分析研究综述[J].中文信息学报,2018,32(12):1-10. 被引量：16
4QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：155
5谢海华,李奥林,李亚博,陈志优,程静,吕肖庆,汤帜.CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法[J].中文信息学报,2021,35(5):38-45. 被引量：4
6亓鹏,曹娟,盛强.语义增强的多模态虚假新闻检测[J].计算机研究与发展,2021,58(7):1456-1465. 被引量：17
7陈德光,马金林,马自萍,周洁.自然语言处理预训练技术综述[J].计算机科学与探索,2021,15(8):1359-1389. 被引量：35
8琚生根,黄方怡,孙界平.融合预训练语言模型的成语完形填空算法[J].软件学报,2022,33(10):3793-3805. 被引量：3

引证文献4

1张浩宇,王天保,李孟择,赵洲,浦世亮,吴飞.视觉语言多模态预训练综述[J].中国图象图形学报,2022,27(9):2652-2682. 被引量：9
2邹傲,郝文宁,陈刚,靳大尉.融合非偏好注意力跨度的预训练语言模型[J].陆军工程大学学报,2023,2(3):49-57.
3冯宇涛,强继朋,李云,袁运浩,朱毅.基于prompt的文本可读性评估[J].扬州大学学报（自然科学版）,2023,26(3):56-60.
4强继朋,陈宇,李杨,李云,吴信东.基于复述模型的词语替代方法[J].中文信息学报,2023,37(5):22-31.

二级引证文献9

1杜长德,周琼怡,刘澈,何晖光.fMRI的视觉神经信息编解码方法综述[J].中国图象图形学报,2023,28(2):372-384.
2王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像-文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325. 被引量：2
3李一晨,黄艳群,张志强,王牧雨,郜斌宇,陈卉.中英文对照的影像学报告在预测模型中的一致性评价[J].中国医疗设备,2023,38(10):1-6.
4倪玉航,张杰.基于预训练模型的注意力叠加方法及其在图像字幕生成中的应用[J].江苏理工学院学报,2023,29(6):12-22.
5张艳琼,朱兆松,赵晓驰.面向手语语言学的中国手语词汇多模态语料库构建研究[J].数据分析与知识发现,2023,7(10):144-155. 被引量：1
6姜丽梅,李秉龙.面向图像文本的多模态处理方法综述[J].计算机应用研究,2024,41(5):1281-1290.
7姚涵涛,余璐,徐常胜.视觉语言模型引导的文本知识嵌入的小样本增量学习[J].软件学报,2024,35(5):2101-2119.
8罗寒,马浩统,刘杰,严华,雷印杰.基于语义一致性约束与局部-全局感知的多模态3D视觉定位[J].计算机应用研究,2024,41(7):2203-2208.
9雷印杰,徐凯,郭裕兰,杨鑫,武玉伟,胡玮,杨佳琪,汪汉云.“三维视觉—语言”推理技术的前沿研究与最新趋势[J].中国图象图形学报,2024,29(6):1747-1764.

1强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：1
2苹果猫.与国庆相关的英语词语[J].小猕猴（学习画刊）,2021(20):39-39.
3张鹰.数据的局限性[J].金融博览,2022(11):22-23.

自动化学报

2022年第8期

浏览历史

内容加载中请稍等...

基于预训练表示模型的英语词语简化方法被引量：4

同被引文献8

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练表示模型的英语词语简化方法 被引量：4

同被引文献8

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于预训练表示模型的英语词语简化方法被引量：4