-
题名汉维句子对齐长度计算单位的研究
- 1
-
-
作者
塞麦提.麦麦提敏
吐尔根.伊布拉音
-
机构
新疆大学
-
出处
《现代计算机》
2018年第22期8-11,16,共5页
-
基金
国家社科基金项目(No.17XYY034)
教育部人文社科青年项目(No.16XJJC740001)
-
文摘
在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。
-
关键词
汉语
维吾尔语
句子对齐
基于长度的方法
句子长度单位
-
Keywords
Chinese
Uyghur
Sentence Alignment
Length-Based Method
Unit of Sentence Length
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-