基于Web数据的特定领域双语词典抽取被引量：11

Bilingual Dictionary Extraction for Special Domain Based on Web Data

下载PDF

导出

摘要双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 Bilingual dictionary is the base of many NLP applications such as multi-lingual information retrieval and machine translation. This paper proposes a method of extracting bilingual dictionary for the special domain from the non-parallel corpora： first, discusses the fundamental postulate and reviews the related research, second, presents an algorithm of extracting the bilingual dictionary for the special domain based on the non-parallel corpora with the word relation matrix, and finally, analyzes the influence of the seed word on the extraction of the bilingual dictionary with abundant of experimentation. The experiments demonstrate that the quantity and average frequency of the seed word pairs contribute to the results effectively.

作者张永臣孙乐李飞李文波西野文人于浩方高林

机构地区中国科学院软件研究所中文信息中心中国科学院研究生院富士通研究开发中心有限公司

出处《中文信息学报》 CSCD 北大核心 2006年第2期16-23,共8页 Journal of Chinese Information Processing

基金富士通研究开发中心合作项目国家自然科学基金资助项目(60203007) 国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110) 北京市科技新星计划资助项目(H020820790130)

关键词计算机应用中文信息处理双语词典词间关系矩阵非平行语料种子词 computer application Chinese information processing bilingual dictionary word relation matrix non-parallel corpus seed word

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量：30
2王斌.基于未对齐汉英双语库的翻译对抽取[J].中文信息学报,2000,14(6):40-44. 被引量：4
3许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
4ResnikP.,Smith N.A.The Web as a Parallel Corpus[J].Computational Linguistics.1 September 2003,vol.29(3),349-380.
5Christopher C.Yang,Kar Wing Li.Automatic construction of English/Chinese parallel corpora[J].Volume 54(8),730-742.
6P.Fung.Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus[A].Workshop on Very Large Corpora.Boston.MA.1995,173-183.
7P.Fung.A Statistical view on Bilingual lexicon extraction:From Parallel Corpora to non-parallel corpora[A].In Jean Veronis.Parallel Text Processing[C].2000.
8Nagata.M,Saito.T and Suzuki.K.Using the Web as a Bilingual Dictionary[A].In:Proc Workshop on Data-driven Methods in Machine Translation[C].2001,95-102.
9Reinhard Rapp.Identifying word translations in non-parallel texts[A].In:Proceedings of the 35th Conference of the Association of Computational Linguistics,student session[C].Boston.Mass.1995,321-322.
10Y.CaoandH.Li.Base Noun Phrase Translation Using Web Data and the EM Algorithm[A].In:Proc.of the 19th International Conference on Computational Linguistics (COLING 2002)[C],Taipei.2002,127-133.

二级参考文献15

1王斌.汉语语料库自动对齐研究（博士学位论文）[M].北京:中国科学院计算技术研究所,1999..
2Sun Le，ProceedingoftheworkshopMAL’99，1999年，135页
3王斌，博士学位论文，1999年
4Chang J S，Proceedingsofthe 35thMeetingoftheAssociationforComputationalLinguistics,Madrid，1997年，297页
5Wu Daikai，MachineTranslation，1995年，9卷，3/4期，285页
6Fung P，Proceedingsofthe 15thInternationalConferenceonComputationalLinguistics （COLING。?994年，1096页
7Wu Daikai，Proceedingsofthe 32ndAnnualMeetingoftheAssociationforComputationalLinguistics （，1994年，80页
8Chen S F，Proceedingsofthe 31thAnnualMeetingoftheAssociationforComputationalLinguistics（A，1993年，9页
9Brown P F，Proceedingsofthe 2 9thAn nualMeetingoftheAssociationforComputationalLinguistics，1991年，169页
10Fung P，Proceedingsofthe 15thInternationalConferenceonComputationalLinguistics（COLING’，1994年，1096页

共引文献43

1于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131.
2蒋晓玲.中国EFL学习者对doubt的使用研究——一项基于BROWN、LOB和WECCL语料库的研究[J].绍兴文理学院学报,2020(6):84-88.
3许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
4张绪华.基于对译信息的汉英句子自动对齐[J].当代外语研究,2010(9):40-43. 被引量：2
5于海江.平行语料库与双语词典编纂[J].辞书研究,2006(1):108-114. 被引量：2
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7孔敬.本体学习：原理、方法与相关进展[J].情报学报,2006,25(6):657-665. 被引量：9
8蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
9章成志,苏新宁.面向信息检索的词汇知识发现[J].现代图书情报技术,2007(1):10-14. 被引量：3
10叶莎妮,吕雅娟,黄赟,刘群.基于Web的双语平行句对自动获取[J].中文信息学报,2008,22(5):67-73. 被引量：12

同被引文献108

1许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
2李由,刘东波,张维明.基于数据实例分布特征的自动模式匹配方法[J].计算机科学,2005,32(11):85-87. 被引量：11
3刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006,20(4):25-32. 被引量：13
4李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
5李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
6蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1):23-29. 被引量：11
7Y. Zhang and P. Vines. Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval [C]//the Proceedings of SIGIR 2004, 162-169.
8F. Huang, Y. Zhang and S. Vogel. Mining Key Phrase Translations from Web Corpora[C]//the Proceedings of HLT-EMNLP 2005: 483-490.
9F. Huang, S. Vogel and A. Waibel. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//the Proceedings of ACL 2003 workshop on Multilingual and mixed-language named entity recognition,9-16.
10F. Huang and S. Vogel. Improved Named Entity Translation and Bilingual Named Entity Extraction [C]//the Proceedings of ICMI 2002, 253-258.

引证文献11

1郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取方法[J].中文信息学报,2008,22(6):103-109. 被引量：11
2王东波,苏新宁.英汉双语句子级平行语料库自动构建[J].现代图书情报技术,2009(12):47-51. 被引量：4
3王东波,谢靖.英汉对照语言对自动获取[J].图书情报工作,2010,54(17):108-112.
4周宥良,狄萍,贡正仙,周国栋.插入语分类抽取研究方法探讨[J].计算机应用与软件,2011,28(4):33-36.
5张宁.自然语言处理中基于模板的汉语语句改写的方法[J].职业技术,2012(7):121-121.
6徐华,刘丹丹,钱龙华,周国栋.基于双语依存关系映射的中英文词表构建研究[J].中文信息学报,2013,27(1):15-20.
7吴玥.基于依存上下文的中—英词表构建方法[J].信息通信,2013,26(7):95-96. 被引量：1
8胡小鹏,袁琦,耿鑫辉,朱姝.构建和剖析中英三元组可比语料库[J].计算机工程与应用,2014,50(13):153-157. 被引量：5
9刘颖,曹项.基于熵模型的英汉人名对齐[J].中文信息学报,2016,30(3):52-59. 被引量：1
10刘颖,曹项.基于网络搜索的英汉人名翻译[J].中文信息学报,2017,31(2):49-54.

二级引证文献23

1孙萌,梁颖红,葛运东,颜振祥,姚建民.基于平行语料库和网络的未登录词译文挖掘[J].江南大学学报（自然科学版）,2010,9(1):66-70.
2董燕举,白宇,蔡东风.基于Web的中英术语翻译获取方法研究[J].沈阳航空工业学院学报,2010,27(2):55-58. 被引量：2
3罗阳,季铎,张桂平,王莹莹.面向单一双语网页的双语资源挖掘方法[J].中文信息学报,2011,25(1):110-115. 被引量：5
4周宥良,狄萍,贡正仙,周国栋.插入语分类抽取研究方法探讨[J].计算机应用与软件,2011,28(4):33-36.
5毛太田,傅佳.通过Web数据挖掘为VILA语言搜集多语种词汇[J].中国科技信息,2011(16):82-83.
6严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息,2011(26):1-2. 被引量：1
7王澍,郑德权,赵铁军.大规模双语句对自动获取技术[J].智能计算机与应用,2012,2(3):72-75.
8张雅,卢华国,陈志杰.网络词典出版中的伦理问题研究[J].编辑之友,2014(11):17-21.
9何彦青,刘建辉,屈鹏,李颖,徐红姣.基于机器翻译的专利术语翻译获取方法研究[J].图书情报工作,2014,58(19):25-30. 被引量：3
10段建勇,闫启伟,张梅,胡熠.维基百科中翻译对的模板挖掘方法研究[J].中文信息学报,2015,29(2):190-198. 被引量：2

1张钹,张铃.时间规划的关系矩阵法[J].计算机学报,1991,14(6):411-422. 被引量：13
2张铃,张钹.解时间规划问题的新方法[J].模式识别与人工智能,1989,2(4):1-10. 被引量：3
3罗小聪.基于专用双语词典的查询扩展[J].现代计算机,2009,15(10):4-6.
4苏依拉,窦保媛,吉亚图.基于本体的蒙古语灾害信息检索模型[J].北京工业大学学报,2016,42(7):1017-1023. 被引量：4
5方思行.一种有效的R_－时刻表综合算法[J].华南理工大学学报（自然科学版）,1995,23(9):43-48. 被引量：8
6才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
7余如,兰慧红.面向数字图书馆的汉英跨语言信息检索模型[J].广西教育学院学报,2016(3):184-186. 被引量：2
8宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(3):105-111. 被引量：14
9凌颖.跨语言跨专业网络寻求解决方案[J].电子世界,2011(12):53-54.
10李亚超,江涛,于洪志,加羊吉.基于词典的藏汉跨语言检索系统研究[J].西北民族大学学报（自然科学版）,2011,32(4):40-43. 被引量：1

中文信息学报

2006年第2期

浏览历史

内容加载中请稍等...

基于Web数据的特定领域双语词典抽取被引量：11

参考文献12

二级参考文献15

共引文献43

同被引文献108

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Web数据的特定领域双语词典抽取 被引量：11

参考文献12

二级参考文献15

共引文献43

同被引文献108

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Web数据的特定领域双语词典抽取被引量：11