摘要
模板的自动抽取算法对机器翻译的研究具有重要意义。从面向英汉翻译的角度出发,论文对基于句子比较的翻译模板抽取(ATTEBSC)算法及其改进开展了比较研究,结果发现传统ATTEBSC算法在处理大规模语料库时运行效率较低,而且产生的无用模板比例较高,其中一个重要原因是没有事先对双语对齐语料库进行分类处理。通过相似性分析对句子进行聚类处理后再运行ATTEBSC算法,则发现该算法的运行效率和有用模板的比例都获得了较大的提高。
Automatic extraction algorithm is very important to machine translation research.From the viewpoint of English-Chinese translation,this paper gives a study of the ATI'EBSC algorithm and its improvement,where ATTEBSC refers to "Automatic Translation Templates Extraction Based on Sentences Comparison".It is shown that the traditional ATTEBSC algorithm is inefficient with a high ratio of useless templates,one important reason is lack of classification for bilingual corpus,If the ATTEBSC algorithm runs after clustering on bilingual corpus,it performs with a good improvement in efficiency and usefulness of templates.
出处
《计算机工程与应用》
CSCD
北大核心
2006年第25期176-179,共4页
Computer Engineering and Applications
基金
北京市自然科学基金资助项目(编号:4052005)
北京市教委科技发展资助项目(编号:Km200310005013)
关键词
句子比较
模板
分类
机器翻译
sentence comparison,template,classification,machine translation