基于锚点句对的汉维句子对齐方法被引量：5

Chinese-Uyghur Sentence Alignment Method Based on Anchor Sentence Pairs

下载PDF

导出

摘要为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。 The step-by-step sentence alignment method is introduced in order to improve current Chinese-Uyghur sentence alignment method. Lexical and length information is used to generate some anchor sentences. Texts are divided into several sections by using anchor sentence as boundary,and then sentences in each section are aligned using lengthbased method. This method is effective in multi domain text because it uses w ords,numbers,and punctuation marks. It avoids complex computing and error spreading because of its ＂subsection＂technique. Experimental results show that the precision of this method is 95. 2% in Chinese-Uyghur multi-domain texts,w hich is 2. 7% higher than length-based method.

作者塞麦提.麦麦提敏侯敏吐尔根.伊布拉音

机构地区新疆大学信息科学与工程学院中国传媒大学国家语言资源监测与研究有声媒体中心

出处《计算机工程》 CAS CSCD 北大核心 2015年第4期166-170,共5页 Computer Engineering

基金新疆维吾尔自治区自然科学基金资助项目(2012211B08)

关键词平行语料库句子对齐锚点基于长度的方法基于词汇的方法 parallel corpora sentence alignment anchor length-based method lexical-based method

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1田生伟,吐尔根.依布拉音,禹龙,加米拉.吾守尔,杨飞宇.多策略汉维句子对齐[J].计算机科学,2010,37(4):215-218. 被引量：8
2Gale W ,Church K. A Program for Aligning Sentences in Bilingual Corpora[C ]//Proceedings of the 29th Annual Meeting of ACL. Stroudsburg, USA Association for Computational Linguistics, 1991 : 177-184.
3Brown P F,Mercer R L. Aligning Sentences in Parallel Corpora[ C]//Proceedings of the 29th Annual Meeting of ACL. Stroudsburg, USA: Association for Computa- tional Linguistics, 1991 : 169-176.
4Gale W,Church K. A Program for Aligning Sentences in Bilingual Corpora[ J]. Computational Linguistics, 1993, 19(1) :75-90.
5Mamitimin S. Chinese-Uyghur Sentence Alignment: An Approach Based on Anchor Sentences [ C] //Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: From Parallel to Non-parallel Corpora. Singapore: Association for Computational Linguistics, 2009:38-45.
6塞麦提·麦麦提敏.汉维平行语料库构建研究[D].北京:中国传媒大学,2009.
7李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
8张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24

二级参考文献21

1张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
2李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
3Dolan W B,Pinkham J,Richardson S D.The Microsoft Research Machine Translation System[J].AMTA,2002:237-239.
4Wu D,Xia X.Large-scale automatic extraction of an English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.
5Fattah M A,Ren Fuji,Shingo K.Adaptive Threshold Parameters for Bilingual Dictionary Extraction from the Internet Archive[J].International Journa Information,2005,8(1):165-175.
6Dejean H,Gaussier E,Sadat F.Bilingual Terminology Extraction:An Approach based on a Multilingual thesaurus Applicable to Comparable Corpora[C]//Proceedings of the 19th International Conference on Computational Linguistics COLING.Taipei,Taiwan,2002:218-224.
7Chuang T C,Yeh K C.Aligning Parallel Bilingual Corpora Statistically with Punctuation Criteria[J].Computational Linguistics and Chinese Language Processing,2005,10(1):95-122.
8Brown P F,Lai J C,Mercer R L.Aligning sentences in parallel corpora[A]//Proceedings of 29th Annual Meetingof the Association for Computational Linguistics Berkeley[C].CA:ACL,1991:169-176.
9Gale W A,Church K W.A program for aligning sentences in bilingual corpora[J].Computational Linguistics,1993,19(1):75-102.
10Kay M.Roscheisen M.Text-translation alignment[J].Computational Linguistics,1993,19(1):121-142.

共引文献39

1黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(6):21-25. 被引量：20
2昝红英,张霞,刘亚雷.基于多种长度单位的汉英句子分组对齐算法[J].郑州大学学报（理学版）,2009,41(2):33-36. 被引量：2
3李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J].现代外语,2006,29(4):371-381. 被引量：14
4郭锐,宋继华,廖敏.基于自动句对齐的相似古文句子检索[J].中文信息学报,2008,22(2):87-91. 被引量：15
5刘泽权,田璐,刘超朋.《红楼梦》中英文平行语料库的创建[J].当代语言学,2008,10(4):329-339. 被引量：35
6李英,吐尔根.依布拉音.双语句子对齐算法分析[J].现代计算机,2008,14(12):71-74.
7陈相,林鸿飞.基于锚信息的生物医学文献双语摘要句子对齐[J].中文信息学报,2009,23(1):58-62. 被引量：4
8热西旦.塔依,吐尔根.依布拉音.汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究[J].新疆大学学报（自然科学版）,2009,26(3):359-363. 被引量：4
9张霞,昝红英,张恩展.汉英句子对齐长度计算方法的研究[J].计算机工程与设计,2009,30(18):4356-4358. 被引量：7
10雷刚,冷荣秋,林思扬.一种计算机领域英汉双语语料库平台的构建[J].科技广场,2009(9):132-135.

同被引文献63

1昝红英,张霞,刘亚雷.基于多种长度单位的汉英句子分组对齐算法[J].郑州大学学报（理学版）,2009,41(2):33-36. 被引量：2
2王子颖.法律语篇中shall和may的翻译对比研究[J].上海翻译,2013(4):52-57. 被引量：18
3吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
4柯飞.翻译中的隐和显[J].外语教学与研究,2005,37(4):303-307. 被引量：277
5张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
6刘鹏远,赵铁军,李生,杨沭昀.利用语义相似度解决双语词汇知识获取的错误累计问题[J].哈尔滨工程大学学报,2006,27(B07):575-579. 被引量：1
7韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
8安纪霞,李锡祚,宋冰,曾伟.服务于词典编纂的特定领域专业术语自动抽取[J].计算机与数字工程,2007,35(11):53-56. 被引量：3
9吴晓昱,王安民.平行语料库与汉英词典编纂的对接[J].译林:学术版,2012(2):173.
10英汉双语平行语料库.检索页面[EB/OL]. http://www.luweixmu.com/ec-corpus/query.asp,2015-11-15.

引证文献5

1才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
2司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
3塞麦提.麦麦提敏,吐尔根.伊布拉音.汉维句子对齐长度计算单位的研究[J].现代计算机,2018,24(22):8-11.
4韦向峰,袁毅,张全,池毓焕.富媒体环境下语音和文本内容的对齐研究[J].情报工程,2019,5(2):17-27. 被引量：1
5梁继文,江川,王东波.基于多特征融合的先秦典籍汉英句子对齐研究[J].数据分析与知识发现,2020,4(9):123-132. 被引量：8

二级引证文献11

1葛晓帅,翟红华.平行语料库检索软件SDAU-ParaConc设计与实现[J].软件导刊,2019,18(9):112-115. 被引量：2
2原伟.面向计算机辅助翻译的乌兹别克语-汉语平行语料库构建与应用[J].电脑知识与技术,2019,15(10X):101-103. 被引量：2
3邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：26
4刘晨阳,唐慧丰.融入多特征的汉韩双语自动句对齐方法[J].智能计算机与应用,2021,11(1):28-31.
5黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：48
6高瑞卿,董启文,方达,王弘治,方勇.数字技术下《老子》文本与先秦两汉典籍的关系挖掘[J].情报杂志,2021,40(10):99-107. 被引量：3
7石静,李阳.数据和技术运用视角下我国数字人文“数字型”研究现状及启示[J].图书情报工作,2021,65(21):141-150. 被引量：9
8刘忠宝,赵文娟.古籍信息处理回顾与展望[J].大学图书馆学报,2021,39(6):38-47. 被引量：10
9许明武,王佩.基于语料库的中国科技典籍英译研究:现状、意义与展望[J].外语与外语教学,2022(5):116-124. 被引量：6
10徐锴,陶冶,李辉.不完全匹配的语音和文本语句级对齐[J].计算机系统应用,2023,32(4):300-307. 被引量：1

1张霞,昝红英,张恩展.汉英句子对齐长度计算方法的研究[J].计算机工程与设计,2009,30(18):4356-4358. 被引量：7
2刘昕,周明,朱胜火,黄昌宁.基于自动抽取词汇信息的双语句子对齐[J].计算机学报,1998,21(S1):151-158. 被引量：18
3张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
4热西旦.塔依,吐尔根.依布拉音.汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究[J].新疆大学学报（自然科学版）,2009,26(3):359-363. 被引量：4
5李英,李亚.一种基于词典和长度相结合的汉-维句子对齐算法[J].新乡学院学报,2012,29(1):66-68.
6钱丽萍,赵铁军,杨沫昀,高光来.基于译文的英汉双语句子自动对齐[J].计算机工程与应用,2000,36(12):59-61. 被引量：12
7姜春涛.利用长轴检测椭圆[J].微型机与应用,2017,36(4):43-46.
8田生伟,吐尔根.依布拉音,禹龙.混合策略的汉维句子对齐[J].计算机工程与应用,2010,46(34):143-145. 被引量：3
9陈岳峰,苗夺谦,李文,张志飞.基于概念的词汇情感倾向识别方法[J].智能系统学报,2011,6(6):489-494. 被引量：10
10沈友文,赵新建,徐俊.一种改进的集中度和分散度文本特征选择算法[J].计算机应用与软件,2011,28(9):96-98. 被引量：1

计算机工程

2015年第4期

浏览历史

内容加载中请稍等...

基于锚点句对的汉维句子对齐方法被引量：5

参考文献8

二级参考文献21

共引文献39

同被引文献63

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于锚点句对的汉维句子对齐方法 被引量：5

参考文献8

二级参考文献21

共引文献39

同被引文献63

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于锚点句对的汉维句子对齐方法被引量：5