-
题名汉藏短语对抽取中短语译文获取方法研究
被引量:7
- 1
-
-
作者
诺明花
吴健
刘汇丹
丁治明
-
机构
中国科学院软件研究所
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第3期112-117,共6页
-
基金
中国科学院"西部行动计划高新技术项目"资助
-
文摘
该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
-
关键词
藏文语块
短语译文获取
藏文信息处理
中文信息处理
-
Keywords
Tibetan chunk
phrase translation extraction
Tibetan information processing
Chinese information processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于序列相交的短语译文获取
被引量:3
- 2
-
-
作者
王辰
宋国龙
吴宏林
张俐
刘绍明
-
机构
东北大学自然语言处理实验室
富士施乐公司
-
出处
《中文信息学报》
CSCD
北大核心
2009年第1期38-43,共6页
-
文摘
短语译文获取技术是基于实例的机器翻译(EBMT)中的核心技术之一,其准确率直接影响到EBMT系统的性能。该文提出了一种基于序列相交的短语译文获取方法,该方法将句子视为词的序列,利用对中日句对齐语料库中包含待译短语的所有源语句子对应的目标语句子进行序列相交的方式,在不需要词对齐、句法分析及词典等资源的情况下,通过充分挖掘句对齐双语语料库的信息,获得高质量的短语译文。实验表明,该方法获得的短语译文准确率超过80%。
-
关键词
计算机应用
中文信息处理
EBMT
短语译文获取
序列相交
-
Keywords
computer application
Chinese information processing
EBMT
phrase translation extraction
sequence intersection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-