-
题名基于句法结构特征的汉越神经机器翻译
- 1
-
-
作者
裴非非
杨舰
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学
-
出处
《信息技术》
2024年第2期15-21,共7页
-
基金
国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)
国家自然科学基金(61972186,61732005,U21B2027)
+3 种基金
云南高新技术产业发展项目(201606)
云南省重大科技专项计划(202103AA080015,202002AD080001-5)
云南省基础研究计划(202001-AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
-
文摘
在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然后,根据句法解析树提取短句和对远离根节点的叶子节点词进行标记,最后,对提取的短句进行反向翻译生成伪平行数据作为扩充,对原有长句中标记词进行与该词语义相近词的加权组合替换训练。实验表明,该方法提高了模型性能,显著改善了长句译文质量。
-
关键词
低资源神经机器翻译
长句译文
汉-越语言
语义信息
句法结构特征
-
Keywords
low-resource neural machine translation
long sentences translation
Chinese-Vietnamese language
semantic information
syntactic structure features
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名借助汉-越双语词对齐语料构建越南语依存树库
- 2
-
-
作者
李发杰
余正涛
郭剑毅
李英
周兰江
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2015年第6期69-74,共6页
-
基金
国家自然科学基金(61262041
61472168)
云南省自然科学基金(2013FA030)
-
文摘
由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。
-
关键词
越南语依存树库
汉语依存句法分析
汉-越语言对齐关系
-
Keywords
vietnamese dependency treebank
chinese dependency parsing
word alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-