期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于BERT模型的无监督候选词生成及排序算法 被引量:1
1
作者 张俊 陈秀宏 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期286-297,共12页
词汇简化的目的是在保持句子原始语义的前提下用更易于理解的简单词替代复杂词,同时使语句保持流畅.传统方法依赖人工标记的数据集或者只关注复杂词本身而未能有效地关注复杂词的上下文,导致生成的候选词不符合上下文语境.为了解决上述... 词汇简化的目的是在保持句子原始语义的前提下用更易于理解的简单词替代复杂词,同时使语句保持流畅.传统方法依赖人工标记的数据集或者只关注复杂词本身而未能有效地关注复杂词的上下文,导致生成的候选词不符合上下文语境.为了解决上述两个问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的无监督候选词生成及排序算法Pretrained-LS,还同时考虑了复杂词和上下文.在候选词生成阶段,Pretrained-LS利用BERT模型生成候选词;在候选词排序阶段,除了常见的词频和BERT预测顺序排序特征,Pretrained-LS提出BERT词嵌入表示语义相似度、基于Roberta(A Robustly Optimized BERT Pretraining Approach)向量的上下文相似度以及常见词复杂分数字典三个排序特征.实验中,在候选词生成阶段,Pretrained-LS采用广泛使用的精确率P、召回率R以及两者的调和平均值F作为评价标准,在候选词排序阶段同样采用精确率P以及准确率A作为评价标准.在三个英语基准数据集上的实验结果表明,与目前表现最好的词汇简化算法相比,在候选词生成阶段,Pretrained-LS的评测指标F值提升5.70%;在候选词排序阶段,准确率A提升7.21%. 展开更多
关键词 词汇简化 预训练模型 候选词生成 候选词排序
下载PDF
基于预训练表示模型的英语词语简化方法 被引量:4
2
作者 强继朋 钱镇宇 +2 位作者 李云 袁运浩 朱毅 《自动化学报》 EI CAS CSCD 北大核心 2022年第8期2075-2087,共13页
词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练... 词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%. 展开更多
关键词 词语简化 候选词生成 候选词排序 预训练语言表示模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部