摘要
基于模板的机器翻译方法在专利文本的自动翻译中具有广泛的应用。由于专利文本的术语繁多,并且分布极不均匀,因此在使用统计方法获取翻译模板时通常会产生严重的数据稀疏问题。本文提出一种专利文本的单语模板的自动获取方法,这种方法充分利用了专利文本中词汇分布极不均匀的特点,通过统计词汇出现的频率来识别出模板的固定部分和可泛化部分。实验结果证明,这种方法在专利文本的模板的自动获取上具有非常好的性能。
Template-based machine translation is widely used in automatic patent translation. Given the enormous amount of jargons and uneven word frequency distribution, data sparseness, there are serious problems when applying statistical method to automatic template acquisition. This paper proposes a new method of automatic template acquisition for patent texts. This new method takes full advantage of uneven word frequency distribution of patent texts and recognizes the positional regularity and the generalizable sections of a template by counting the word frequency. The experiment result verifies the good performance of the method in automatic template acquisition for patent texts.
出处
《语言文字应用》
CSSCI
北大核心
2010年第1期135-140,共6页
Applied Linguistics
关键词
模板自动获取
机器翻译
专利翻译
automatic translation template acquisition
machine translation
patent translation