-
题名融合BERT语境词向量的译文质量估计方法研究
被引量:6
- 1
-
-
作者
李培芸
李茂西
裘白莲
王明文
-
机构
江西师范大学计算机信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2020年第3期56-63,共8页
-
基金
国家自然科学基金(61662031,61462044,61876074)。
-
文摘
蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。
-
关键词
神经译文质量估计
语境词向量
循环神经网络
编码器-解码器网络
质量向量
-
Keywords
neural quality estimation of machine translation
contextual word embedding
recurrent neural network
encoder-decoder network
quality vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名引入词性标记的基于语境相似度的词义消歧
被引量:6
- 2
-
-
作者
孟禹光
周俏丽
张桂平
蔡东风
-
机构
沈阳航空航天大学人机智能中心
-
出处
《中文信息学报》
CSCD
北大核心
2018年第8期9-18,共10页
-
基金
教育部人文社会科学研究规划基金(18YJA870020)
-
文摘
目前的语境向量模型在对语义空间建模的时候,没有考虑到同一个词的不同词性具有不同的含义,将它们看作同一个点进行建模,导致得到的语境向量质量不高,使用这种语境向量计算语境相似度效果不好。针对该类问题,提出了一种加入词性特征的语境向量模型,加入词性后,可以将原本用语义空间中一个点表示的几个语义区分出来,得到质量更好的语境向量和语境相似度,进而得到更好的消歧效果。实验结果表明,这种建模方式可以有效区分不同词性的语义,在2004年的Senseval-3测试集上进行测试,准确率达到了75.3%,并在SemEval-13和SemEval-15公开测试集上进行了测试,消歧效果相比未引入词性特征的模型均得到了提升。
-
关键词
语境向量
语境相似度
词义消歧
词性特征
-
Keywords
context vector
context similarity
word sense disambiguation
part of speech features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名引入源端信息的机器译文自动评价方法研究
被引量:2
- 3
-
-
作者
罗琪
李茂西
-
机构
江西师范大学计算机信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第12期60-67,共8页
-
基金
国家自然科学基金(61662031,61462044)
江西省教育厅研究生创新基金(YC2020-S161)
-
文摘
机器译文自动评价是机器翻译中的一个重要任务。针对目前译文自动评价中完全忽略源语言句子信息,仅利用人工参考译文度量翻译质量的不足,该文提出了引入源语言句子信息的机器译文自动评价方法:从机器译文与其源语言句子组成的二元组中提取描述翻译质量的质量向量,并将其与基于语境词向量的译文自动评价方法利用深度神经网络进行融合。在WMT’19译文自动评价任务数据集上的实验结果表明,该文所提出的方法能有效增强机器译文自动评价与人工评价的相关性。深入的实验分析进一步揭示了源语言句子信息在译文自动评价中发挥着重要作用。
-
关键词
机器翻译
译文自动评价
质量向量
语境词向量
自然语言推断
-
Keywords
machine translation
automatic evaluation of machine translation
quality embeddings
contextual embeddings
natural language inference
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-