-
题名基于双语语料的单个源语词汇和目标语多词单元的对齐
被引量:6
- 1
-
-
作者
陈博兴
杜利民
-
机构
中国科学院声学研究所语音交互技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2003年第1期13-19,共7页
-
基金
国家 973重点基础研究发展资助项目 (G19980 30 5 0 5 )
-
文摘
多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。
-
关键词
双语语料
源语词汇
目标语
人工智能
机器翻译
双语对齐
多词单元
翻译词典
-
Keywords
artificial intelligence
machine translation bilingual alignment
multiword unit
translation dictionary
even association score
normalize association score difference
-
分类号
H08
[语言文字—语言学]
-
-
题名基于双语对齐口语语料的翻译词典的自动生成
被引量:2
- 2
-
-
作者
陈博兴
杜利民
-
机构
中国科学院声学研究所语音交互技术研究中心
-
出处
《计算机学报》
EI
CSCD
北大核心
2003年第3期275-280,共6页
-
文摘
提出了一个基于英汉双语口语对齐语料库的翻译词典的自动生成算法 .首先利用释义词典过滤双语文本 ,得到“过滤词典” ,继而通过统计共现概率 ,计算出所有词对的相互关联值 ,并且生成“汉英 (英汉 )相互关联值表” ,对于每个源语词汇选取相互关联值最大的若干项目标语作为候选词对 ,分别赋予信任值 1,然后统计每个候选词对的信任值作为翻译词典的分级标准 ,得到 4个不同级别的词典 ,其中“过滤词典 +4级词典”在召回率为 93 5 %的情况下 ,正确率达到 93 389% .
-
关键词
双语对齐
口语语料
翻译词典
自动生成
关联值
机器翻译
英汉翻译
语料库
-
Keywords
Database systems
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
H315.9
[语言文字—英语]
-
-
题名基于“相同与差异”的机译单元的自动提取研究
- 3
-
-
作者
陈博兴
杜利民
-
机构
中国科学院声学研究所语音交互技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2003年第3期34-40,共7页
-
文摘
从双语语料库中提取的机译单元能更好地覆盖真实语言文本 ,本文提供了一个通过找出两个双语句对之间非全部为高频功能词的“相同和差异”部分 ,并且利用翻译词典和动态规划算法对齐“相同和差异”部分来获取机译单元的算法。对于获取的候选机译单元 ,本算法设计了三个过滤器来考察其正确性 :双语词串相似度过滤考察其语义对应性 ,词性相似度过滤考察其语法对应性 ,首尾禁用词过滤考察其搭配正确性。通过抽样检验 ,最后提取的机译单元的正确率为 86% ,召回率约为 61 34 % ,该算法对于获取机译单元提供了一种新的实用的方法。
-
关键词
人工智能
机器翻译
双语语料库
机译单元
相同和差异
-
Keywords
artificial intelligence
machine translation
bilingual corpora
machine translation unit
similarity and difference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-