-
题名基于预训练表示模型的英语词语简化方法
被引量:4
- 1
-
-
作者
强继朋
钱镇宇
李云
袁运浩
朱毅
-
机构
扬州大学信息工程学院
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第8期2075-2087,共13页
-
基金
国家自然科学基金(62076217,61906060,61703362)
江苏省自然科学基金(BK20170513)资助。
-
文摘
词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%.
-
关键词
词语简化
候选词生成
候选词排序
预训练语言表示模型
-
Keywords
Lexical simplification
substitution generation
substitution ranking
bidirectional encoder representations from transformers
-
分类号
H313
[语言文字—英语]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名自动词语简化方法综述
被引量:1
- 2
-
-
作者
强继朋
李云
吴信东
-
机构
扬州大学计算机科学与技术系
大数据知识工程教育部重点实验室(合肥工业大学)
合肥工业大学大知识科学研究院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第12期1-16,共16页
-
基金
国家自然科学基金(62076217,61703362)
江苏省自然科学基金(BK20170513)
江苏省高校自然科学基金(18KJB120011)
-
文摘
自动词语简化是用简单、同等意义的词语替代句子中复杂词的过程,是文本简化中的一个重要研究方向。随着自然语言处理技术的快速发展,词语简化方法也在不断更新与变化。该文对词语简化方法的相关研究进行了梳理,先对词语简化的整体框架进行解释,然后将词语简化方法总结为语言数据库、自动规则、词嵌入模型、混合模型和预处理语言模型。接着对汉语词语简化研究所面临的难点进行论述。最后,对词语简化方法的发展方向进行了展望和总结。
-
关键词
词语简化
复杂词识别
文本简化
预处理语言模型(BERT)
-
Keywords
lexical simplification
complex word identification
text simplification
BERT
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名英语名词词组简化认知动因分析
被引量:1
- 3
-
-
作者
杨雨晨
-
机构
暨南大学外国语学院
-
出处
《长春工业大学学报(社会科学版)》
2011年第5期105-106,共2页
-
文摘
词语简化是常见的语言现象,而关于词组为何简化,其为何成为最终被人们采用的简化形式,语言学界并没有对这类问题进行过系统的研究。本文试从认知语言学角度,运用认知语言学中的意象图示、概念合成、理解输出模式相关理论对英语中的名词词组简化现象作认知动因分析,给出词组简化的认知过程解释。
-
关键词
词语简化
认知动因
意象图示
概念合成
理解输出模式
-
分类号
H314.3
[语言文字—英语]
-
-
题名当代汉语两组词使用情况考察
- 4
-
-
作者
刁晏斌
-
机构
辽宁师范大学文学院
-
出处
《辽东学院学报(社会科学版)》
2005年第2期27-29,共3页
-
文摘
本文对两组不同类型的词在当代汉语中的使用情况进行了调查,第一组反映的是由于词的高频使用而在极短时间内造成的简缩和用法变化;第二组则反映了一组同义词在当代汉语中的消长变化。两组词的发展变化都很有“类”的意义,因而值得重视。
-
关键词
当代汉语
词语使用
同义词
词语简化
-
分类号
H136
[语言文字—汉语]
-