基于多特征融合和图匹配的维汉句子对齐被引量：2

Uyghur Chinese Sentence Alignment Based on Multi Features and Optimal Matching

下载PDF

导出

摘要维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。 The content of Uyghur webpage news is usually partial comparable with the content of the Chinese counterpart.Uyghur sentence sequences may be shuffled or even partially missing in Chinese text,which cause some difficulties in mining parallel sentences（i.e.sentence bead）from bilingual news.Fist,to improve the word matching rate of this kind,person and location names in Chinese are extracted and translated into Uyghur to enhance bilingual mapping.Then we scan the Chinese sentences with translation of Uighur words and calculate the translation rate via string matching to avoid mistakes in Chinese word segmentation.The final similarity of a sentence pair is calculated by combining the word translation rate with the numbers,punctuations and length of sentences as features.Similarities of all the bilingual sentence pairs constructed a weight matrix.We used greedy algorithm and maximum weight matching algorithm in bipartite graph to find the parallel sentence pairs with highest probability.Our method achieves an accuracy of 95.67%in sentence alignment.

作者倪耀群许洪波程学旗 Ni Yaoqun Xu Hongbo Cheng Xueqi(CAS Key Laboratory of Network Data Science ＆ Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China Department of Language Engineering, University of Chinese Academy of Sciences,Beijing 100049, China Department of Language Engineering, University of Foreign Languages, Luoyang, Henan 471003, China)

机构地区中国科学院计算技术研究所网络数据科学与技术重点实验室中国科学院大学洛阳外国语学院语言工程系

出处《中文信息学报》 CSCD 北大核心 2016年第4期124-133,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61232010 61303156) 国家973课题(2012CB316303) 国家863课题(2012AA011003) 国家科技支撑计划(2012BAH46B04)

关键词句子对齐人名、地名翻译多特征融合二部图最佳匹配 sentence alignment translation of human name and location name multiple features blending maximum weight matching in bipartite graph

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1田生伟,吐尔根.依布拉音,禹龙,加米拉.吾守尔,杨飞宇.多策略汉维句子对齐[J].计算机科学,2010,37(4):215-218. 被引量：8
2吴宏林,刘绍明,于戈.基于加权二部图的汉日词对齐[J].中文信息学报,2007,21(5):101-106. 被引量：7
3李佳正,刘凯,麦热哈巴.艾力,吕雅娟,刘群,吐尔根.依布拉音.维吾尔语中汉族人名的识别及翻译[J].中文信息学报,2011,25(4):82-87. 被引量：13

二级参考文献31

1吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
4刘小虎,吴葳,李生,赵铁军,蔡萌,鞠英杰.基于词典和统计的语料库词汇级对齐算法[J].情报学报,1997,16(1):21-27. 被引量：8
5罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
6Dolan W B,Pinkham J,Richardson S D.The Microsoft Research Machine Translation System[J].AMTA,2002:237-239.
7Wu D,Xia X.Large-scale automatic extraction of an English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.
8Fattah M A,Ren Fuji,Shingo K.Adaptive Threshold Parameters for Bilingual Dictionary Extraction from the Internet Archive[J].International Journa Information,2005,8(1):165-175.
9Dejean H,Gaussier E,Sadat F.Bilingual Terminology Extraction:An Approach based on a Multilingual thesaurus Applicable to Comparable Corpora[C]//Proceedings of the 19th International Conference on Computational Linguistics COLING.Taipei,Taiwan,2002:218-224.
10Chuang T C,Yeh K C.Aligning Parallel Bilingual Corpora Statistically with Punctuation Criteria[J].Computational Linguistics and Chinese Language Processing,2005,10(1):95-122.

共引文献25

1李文刚,周杰,杨保群.基于词典和句长及位置的双语对齐方法的改进[J].现代电子技术,2011,34(14):25-27. 被引量：2
2玛依拉.艾尼扎提,胡学钢.一种基于汉维对齐的双语语料库的获取方法[J].合肥工业大学学报（自然科学版）,2011,34(11):1670-1673.
3田生伟,禹龙,杨飞宇.改进的自适应汉维句子对齐[J].计算机工程与应用,2011,47(35):147-149. 被引量：1
4张贯虹,乌达巴拉,巩政.基于判别式模型的蒙英词对齐方法[J].模式识别与人工智能,2012,25(3):521-526. 被引量：1
5谭煜辉.基于统计的改进音译单元的维文—汉文人名音译研究[J].福建电脑,2013,29(8):99-100.
6米成刚,杨雅婷,周喜,李晓,杨明忠.基于字符串相似度的维吾尔语中汉语借词识别[J].中文信息学报,2013,27(5):173-178. 被引量：6
7邹岳琳,吐尔根.依布拉音,麦热哈巴.艾力,艾山.吾买尔,帕力旦.吐尔逊.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2):625-630. 被引量：6
8张贯虹.融合句法信息的双语词对齐方法研究[J].电脑知识与技术,2014(3):1519-1523.
9塞麦提.麦麦提敏,侯敏,吐尔根.伊布拉音.基于锚点句对的汉维句子对齐方法[J].计算机工程,2015,41(4):166-170. 被引量：5
10刘颖,王楠.最大熵模型和BP神经网络的短句对齐比较[J].计算机工程与应用,2015,51(7):112-117. 被引量：4

同被引文献4

1王家乾,龚子寒,薛云,庞士冠,古东宏.基于混合多头注意力和胶囊网络的特定目标情感分析[J].中文信息学报,2020(5):100-110. 被引量：9
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3程淑玉,郭泽颖,刘威,印鉴.融合Attention多粒度句子交互自然语言推理研究[J].小型微型计算机系统,2019,40(6):1215-1220. 被引量：4
4何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：16

引证文献2

1王琪.基于字符长度的朝汉双语语料库的构建[J].长江信息通信,2022,35(11):57-59. 被引量：1
2谭琪辉,周兰江,张建安.融合语义信息的汉老双语句子对齐方法[J].中文信息学报,2023,37(1):79-87.

二级引证文献1

1徐威.基于深度学习的农机机器英语语料库的设计[J].农机化研究,2024,46(10):208-212.

1鬼王.“甜似蜜”蜂房小技巧[软件提高篇][J].电脑应用文萃,2005(1):65-65.
2薛理立,艾海舟.基于弹性图匹配的实时视频流人脸识别[J].计算机科学,2003,30(11):65-69. 被引量：2
3安见才让,王玲玲.一种汉藏双语句子对齐算法[J].微处理机,2011,32(3):55-57.
4《蚕桑茶叶通讯》来稿要求[J].蚕桑茶叶通讯,2016,0(6):34-34.
5汤进,江波,罗斌,孔敏.基于直方图的形状描述及骨架图匹配算法[J].华南理工大学学报（自然科学版）,2010,38(7):27-32. 被引量：6
6侯中熙,王红斌,线岩团.融合新闻要素的跨语言新闻文本相似度计算[J].价值工程,2016,35(17):177-181. 被引量：2
7一个单词轻松造英文句[J].计算机应用文摘,2011(27):75-75.
8陈莉.由“龙”之争看英汉互译中的译词原则[J].科技信息,2008(20):190-190.
9李辉.外国人名、地名翻译工具书介绍[J].西北地质,2007,40(3):43-43.
10岳鹏德.一种基于遗传算法思想实现的图匹配算法[J].电脑知识与技术,2013(1):88-91. 被引量：2

中文信息学报

2016年第4期

浏览历史

内容加载中请稍等...

基于多特征融合和图匹配的维汉句子对齐被引量：2

参考文献3

二级参考文献31

共引文献25

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合和图匹配的维汉句子对齐 被引量：2

参考文献3

二级参考文献31

共引文献25

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合和图匹配的维汉句子对齐被引量：2