期刊文献+

基于Web数据的特定领域双语词典抽取 被引量:11

Bilingual Dictionary Extraction for Special Domain Based on Web Data
下载PDF
导出
摘要 双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation. This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora: first, discusses the fundamental postulate and reviews the related research, second, presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix, and finally, analyzes the influence of the seed word on the extraction of the bilingual dictionary with abundant of experimentation. The experiments demonstrate that the quantity and average frequency of the seed word pairs contribute to the results effectively.
出处 《中文信息学报》 CSCD 北大核心 2006年第2期16-23,共8页 Journal of Chinese Information Processing
基金 富士通研究开发中心合作项目 国家自然科学基金资助项目(60203007) 国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110) 北京市科技新星计划资助项目(H020820790130)
关键词 计算机应用 中文信息处理 双语词典 词间关系矩阵 非平行语料 种子词 computer application Chinese information processing bilingual dictionary word relation matrix non-parallel corpus seed word
  • 相关文献

参考文献12

  • 1孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量:30
  • 2王斌.基于未对齐汉英双语库的翻译对抽取[J].中文信息学报,2000,14(6):40-44. 被引量:4
  • 3许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量:13
  • 4ResnikP.,Smith N.A.The Web as a Parallel Corpus[J].Computational Linguistics.1 September 2003,vol.29(3),349-380.
  • 5Christopher C.Yang,Kar Wing Li.Automatic construction of English/Chinese parallel corpora[J].Volume 54(8),730-742.
  • 6P.Fung.Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus[A].Workshop on Very Large Corpora.Boston.MA.1995,173-183.
  • 7P.Fung.A Statistical view on Bilingual lexicon extraction:From Parallel Corpora to non-parallel corpora[A].In Jean Veronis.Parallel Text Processing[C].2000.
  • 8Nagata.M,Saito.T and Suzuki.K.Using the Web as a Bilingual Dictionary[A].In:Proc Workshop on Data-driven Methods in Machine Translation[C].2001,95-102.
  • 9Reinhard Rapp.Identifying word translations in non-parallel texts[A].In:Proceedings of the 35th Conference of the Association of Computational Linguistics,student session[C].Boston.Mass.1995,321-322.
  • 10Y.CaoandH.Li.Base Noun Phrase Translation Using Web Data and the EM Algorithm[A].In:Proc.of the 19th International Conference on Computational Linguistics (COLING 2002)[C],Taipei.2002,127-133.

二级参考文献15

  • 1王斌.汉语语料库自动对齐研究(博士学位论文)[M].北京:中国科学院计算技术研究所,1999..
  • 2Sun Le,ProceedingoftheworkshopMAL’99,1999年,135页
  • 3王斌,博士学位论文,1999年
  • 4Chang J S,Proceedingsofthe 35thMeetingoftheAssociationforComputationalLinguistics,Madrid,1997年,297页
  • 5Wu Daikai,MachineTranslation,1995年,9卷,3/4期,285页
  • 6Fung P,Proceedingsofthe 15thInternationalConferenceonComputationalLinguistics (COLING。?994年,1096页
  • 7Wu Daikai,Proceedingsofthe 32ndAnnualMeetingoftheAssociationforComputationalLinguistics (,1994年,80页
  • 8Chen S F,Proceedingsofthe 31thAnnualMeetingoftheAssociationforComputationalLinguistics(A,1993年,9页
  • 9Brown P F,Proceedingsofthe 2 9thAn nualMeetingoftheAssociationforComputationalLinguistics,1991年,169页
  • 10Fung P,Proceedingsofthe 15thInternationalConferenceonComputationalLinguistics(COLING’,1994年,1096页

共引文献43

同被引文献108

引证文献11

二级引证文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部