-
题名基于词向量的维吾尔语词项归一化方法
被引量:5
- 1
-
-
作者
罗延根
李晓
蒋同海
杨雅婷
周喜
王磊
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆民族语音语言信息处理重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期220-225,共6页
-
基金
新疆维吾尔自治区青年科技创新人才培养工程项目(2014711006
2014721032)
+2 种基金
新疆维吾尔自治区高技术研究与发展项目(201412101)
新疆维吾尔自治区重点实验室开放课题"基于黏着语形态特征的维汉机器翻译最大熵调序研究"(2015KL031)
新疆维吾尔自治区重大科技专项课题"维汉机器翻译平台"(2016A03007-2)
-
文摘
使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。
-
关键词
维吾尔语口语文本
非正规词
归一化
神经网络
重采样
-
Keywords
uyghur spoken text
unformal word
normalization
neural network
resample
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-