-
题名篇章神经机器翻译综述
被引量:1
- 1
-
-
作者
苏劲松
陈骏轩
陆紫耀
董怡帆
康立言
张海英
-
机构
厦门大学信息学院
-
出处
《情报工程》
2020年第5期4-14,共11页
-
基金
国家重点研发计划科技创新2030—“新一代人工智能”重大项目《以中文为核心的多语种自动翻译研究》课题《面向机器翻译的多模态多语言深度融合关键技术》2020AAA0108004
国家自然科学基金面上项目“面向机器翻译的多层次语义表示研究”(61672440)
福建省杰出青年基金项目“多源神经机器翻译关键技术研究与应用”(2020J01312146)。
-
文摘
篇章机器翻译旨在使用计算机将一个篇章从一种语言自动翻译成另一种语言,是机器翻译中一项富有挑战性的任务。近年来,随着神经机器翻译的快速发展,篇章神经机器翻译成为了机器翻译研究的热门方向。研究者们提出了许多基于神经网络的篇章机器翻译模型,并取得了不错的效果。相比于传统句子神经机器翻译,篇章神经机器翻译通过建模并利用篇章级别的上下文信息来产生质量更高的译文。本文首先简单介绍了篇章翻译任务的定义和特点;其次分三个方面对篇章神经机器翻译现有研究进行了介绍:上下文建模、模型训练、模型分析;最后分析了篇章神经机器翻译研究当前面临的主要难点,并探讨未来可能的研究方向。
-
关键词
自然语言处理
篇章神经机器翻译
上下文建模
模型训练
模型分析
-
Keywords
Natural language processing
Document-level NMT
context modeling
model training
model analysis
-
分类号
G35
[文化科学—情报学]
-
-
题名基于带权词格的循环神经网络句子语义表示建模
被引量:2
- 2
-
-
作者
张祥文
陆紫耀
杨静
林倩
卢宇
王鸿吉
苏劲松
-
机构
厦门大学
江苏省计算机信息处理技术重点实验室(苏州大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第4期854-865,共12页
-
基金
国家自然科学基金项目(61672440)
北京语言大学语言资源高精尖创新中心资助
+2 种基金
国家语言文字工作委员会一般项目(YB135-49)
中央高校基本科研业务费专项资金项目(ZK1024)
苏州大学江苏省计算机信息处理技术重点实验室开放课题(KJS1520)~~
-
文摘
目前,循环神经网络(recurrent neural network, RNN)已经被广泛应用于自然语言处理的文本序列语义表示建模.对于没有词语分隔符的语言,例如中文,该网络以经过分词预处理的词序列作为标准输入.然而,非最优的分词粒度和分词错误会对句子语义表示建模产生负面作用,影响后续自然语言处理任务的进行.针对这些问题,提出基于带权词格的循环神经网络模型.该模型以带权词格作为输入,在每个时刻融合多个输入向量和对应的隐状态,融合生成新的隐状态.带权词格是一种包含指数级别分词结果的压缩数据结构,词格中的边权重在一定程度上体现了不同分词结果的一致性.特别地,利用词格权重作为融合函数中权重建模的监督信息,进一步提升了模型句子语义表示的学习效果.相比于传统循环神经网络,该模型不仅能够缓解分词错误对句子语义建模产生的负面影响,同时使得语义建模具有更强的灵活性.在情感分类和问句分类2个任务上的实验结果证明了该模型的有效性.
-
关键词
带权词格
循环神经网络
句子语义建模
情感分类
问句分类
-
Keywords
weighted word lattice
recurrent neural network
sentence semantics modeling
sentiment classification
question classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-