摘要
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。
Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation. This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora: first, discusses the fundamental postulate and reviews the related research, second, presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix, and finally, analyzes the influence of the seed word on the extraction of the bilingual dictionary with abundant of experimentation. The experiments demonstrate that the quantity and average frequency of the seed word pairs contribute to the results effectively.
出处
《中文信息学报》
CSCD
北大核心
2006年第2期16-23,共8页
Journal of Chinese Information Processing
基金
富士通研究开发中心合作项目
国家自然科学基金资助项目(60203007)
国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110)
北京市科技新星计划资助项目(H020820790130)
关键词
计算机应用
中文信息处理
双语词典
词间关系矩阵
非平行语料
种子词
computer application
Chinese information processing
bilingual dictionary
word relation matrix
non-parallel corpus
seed word