基于双语语料库的翻译等价对自动抽取被引量：8

Automatic Extraction of Translational Equivalence Based on Bilingual Corpora

下载PDF

导出

摘要提出了一种利用双语语料库自动抽取多词翻译等价对的方法。首先利用N-gram模型获得候选翻译单元,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。在翻译概率的计算中对3种常用的统计同现测度进行了比较。实验表明,当语料规模较小时,对数似然比(Log Likelihood Ratio)测度对于翻译等价对的抽取具有较好的效果。与现有方法相比,该方法较好地解决了翻译等价对抽取中多词单元对应及间接相关问题。 This paper describes a method to acquire multi-word translational equivalences from English-Chinese parallel corpora. Translation candidates are firstly obtained using N-gram model. Then, an iterative algorithm is used to extract translation equivalences according to statistical translation measures. Three statistical translation measures: Dice coefficient, Phi-Square Coefficient and Log Likelihood Ratio are compared in experiments and it is proved that Log Likelihood Ratio works better when training corpus is small. Compared with previous works, the proposed method solves the difficulty of multi-word unit correspondences and the problem of indirect association. Experiments on real corpus produced very promising results.

作者吕雅娟李生赵铁军杨沐昀

机构地区哈尔滨工业大学计算机科学与技术学院

出处《高技术通讯》 EI CAS CSCD 2003年第5期19-24,共6页 Chinese High Technology Letters

基金 863计划(2001AA114101)资助项目。

关键词双语语料库自动抽取 N-GRAM模型翻译概率计算机知识获取候选翻译单元 Bilingual corpora, Translational equivalence, N-gram, Knowledge acquisition

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Wu D K, Xia X Y. Learning an english chinese lexicon from a parallel corpus. In: Proceedings of the 1st Conference of the Association for Machine Translation in the American, 1994. 206.
2Gale W, Church K. Identifying word correspondences in parallel texts. In: Proceedings of the 4th DARPA Workshop on Speech and Natural Language, 1991. 152.
3Fung P. A statistical view on bilingual lexicon extraction:from parallel corpora to non-parallel corpora. In: Proceeding of AMTA-98 Conference, Machine Translation and the Information Soup Pennsylvania, 1998.1.
4Melamed D. Computational Linguistics, 2000, 26 (2) :221.
5Yamamoto K, Matsumoto Y, Kitamura M. A comparative study on translation units for bilingual lexicon extraction.In: Proceedings of ACL-2001 Workshop on Data-Driven Methods in Machine Translation, 2001.87.
6DunrfingT. Computational Linguistics, 1993,19(1):61.

同被引文献88

1吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
2郑丽英.数据结构Trie及其应用[J].现代计算机,2004,10(8):20-22. 被引量：6
3王妙娅,赖茂生.跨语言信息检索中的询问翻译方法及其研究进展[J].现代图书情报技术,2005(4):37-41. 被引量：14
4张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
5张孝飞,陈肇雄,黄河燕,王建德.基于锚点词对的双语词对齐算法[J].小型微型计算机系统,2006,27(2):330-334. 被引量：10
6李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
7王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
8张春祥,李生,赵铁军.基于中心语块扩展的短语对齐[J].计算机研究与发展,2006,43(9):1658-1665. 被引量：3
9刘小虎,吴葳,李生,赵铁军,蔡萌,鞠英杰.基于词典和统计的语料库词汇级对齐算法[J].情报学报,1997,16(1):21-27. 被引量：8
10[1]Brown,P.F.,Della Pietra,S.A.,Della Pietra,V.J.and Mercer,R.L.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19:2.

引证文献8

1黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(6):21-25. 被引量：20
2陈国华,王立欣,梁茂成,刘树杰,许家金.英汉/汉英对译语料库对应词检索器[J].外语电化教学,2006(6):11-16. 被引量：13
3梁铭.基于英汉平行语料库术语词典的自动抽取[J].电脑知识与技术,2009,5(7):5081-5083. 被引量：5
4钟玉峰.基于平行语料库的文献术语抽取研究[J].黑龙江工程学院学报,2011,25(4):60-62. 被引量：1
5刘颖,铁铮,余畅.汉英短语翻译对的自动抽取[J].计算机应用与软件,2012,29(7):69-72. 被引量：3
6唐亮,李倩,许洪波,易绵竹.基于多策略过滤的汉日多词短语抽取和对齐[J].山东大学学报（理学版）,2015,50(9):21-28. 被引量：4
7葛运东,陈洪梅,姚建民.跨语言文献检索系统研究[J].情报探索,2022(1):69-72.
8张宇辉,张雪萍.中英文跨语言信息检索中平行语料库的构建及性能评价研究[J].情报科学,2024,42(3):80-88.

二级引证文献43

1陈国华,熊文新.英语学习词典机辅编写系统的设计原则与实现[J].外语电化教学,2007(5):3-7. 被引量：2
2熊文新,陈国华.一个用于英语学习词典编纂的机辅词编系统的实现[J].现代教育技术,2008,18(8):63-67.
3李秀英.术语与机器翻译——实验结果分析与术语数据库的构建[J].实验室研究与探索,2008,27(11):51-56. 被引量：3
4王正,孙东云.论双语词典的修订[J].中国图书评论,2009(8):53-59. 被引量：1
5王正,孙东云.利用翻译记忆系统自建双语平行语料库[J].外语研究,2009,26(5):80-85. 被引量：35
6申文明,黄家裕,刘连芳.平行语料库的相似语句去重算法[J].广西科学院学报,2009,25(4):248-250. 被引量：4
7贺文照.我国语料库与翻译教学:成绩与问题[J].嘉兴学院学报,2010,22(2):100-105. 被引量：2
8李宁.英语视听说语料库的构建与英语教学初探[J].成才之路,2011(24). 被引量：1
9罗卫东.近五年国内语料库语言学研究综述[J].当代教育理论与实践,2011,3(11):138-140. 被引量：3
10廖志勤,姬岳江.基于教学型国学翻译汉英语料库构建的几点思考[J].上海翻译,2011(4):44-47.

1那日松.标点符号在法律术语自动抽取研究中的作用[J].中国科技术语,2009,11(4):27-30.
2巢佳媛,贡正仙.主题模型在统计机器翻译中的应用[J].中国科技信息,2013(11):99-100. 被引量：1
3曹杰,吕雅娟,苏劲松,刘群.利用上下文信息的统计机器翻译领域自适应[J].中文信息学报,2010,24(6):50-56. 被引量：4
4SU Jinsong,WANG Zhihao,WU Qingqiang,YAO Junfeng,LONG Fei,ZHANG Haiying.A Topic-Triggered Translation Model for Statistical Machine Translation[J].Chinese Journal of Electronics,2017,26(1):65-72. 被引量：1
5杨振东,庞薇,魏玮,杜金华,陈振标,宗成庆.基于短语模板对齐的统计机器翻译系统[J].中文信息学报,2006,20(B03):53-60. 被引量：1
6梁铭.基于英汉平行语料库术语词典的自动抽取[J].电脑知识与技术,2009,5(7):5081-5083. 被引量：5
7孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量：30
8尹瑞程,叶娜,蔡东风.基于用户反馈的统计机器翻译短语表优化方法[J].沈阳航空航天大学学报,2016,33(3):73-78.
9张珊珊.表祈使的“A点儿!”的主观性及其对A的选择[J].汉字文化,2010(6):48-52. 被引量：1
10陈鄞,吕雅娟,李生.基于多特征的搭配翻译模型研究[J].哈尔滨工业大学学报,2007,39(11):1790-1795. 被引量：1

高技术通讯

2003年第5期

浏览历史

内容加载中请稍等...

基于双语语料库的翻译等价对自动抽取被引量：8

参考文献6

同被引文献88

引证文献8

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于双语语料库的翻译等价对自动抽取 被引量：8

参考文献6

同被引文献88

引证文献8

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于双语语料库的翻译等价对自动抽取被引量：8