基于多策略融合Giza++的术语对齐法被引量：4

Automatic Term Alignment Based on Advanced Multi-Strategy and Giza++ Integration

下载PDF

导出

摘要跨语系术语对齐质量不高,原因在于其依赖于低质量的术语抽取与对齐.提出的多策略融合Giza++(AGiza)的术语对齐法,为提高术语抽取质量,用首尾词性规则提高召回率,用独立过滤、停用过滤提高准确率,再识别共句术语对.为提高术语对齐的对准率:基于独立度、停用度,提出独立相关度、停用相关度;由种子对相关度和单词关联度概率加组合成语义相关度;根据首尾对齐情况,提出首尾相关度,并去除值为0者;基于词性组成特征,构造词性相似度;由GIZA++计算得到g值;经过属性的相关系数分析后,乘法组合各属性构造术语对齐度a;最后,过滤a超过术语对齐阈值(由召回率设定)的术语对.实验结果表明,AGiza术语对齐,可有效地处理跨语系术语对齐,质量高于GIZA++,Dice,Φ2,LLR,K-VEC及DKVEC. The quality of cross-phylum term alignment depends on the quality of term extraction and alignment method. This paper proposes an automatic term alignment based on advanced multi-strategy and Giza＋＋（AGiza） integration. By analyzing the properties of the term extraction performed by using some existing methodologies in the literature, the rules of the first and the last part of speech of strings are designed to increase the recall rate. Methods that are applied for the purpose of increasing the precision of the term extraction include：（1） independence filter; （2） stopping filter; and （3） recognition of the co-occurrence of terms in the sentence pairs. The following steps are also implemmented to increase the alignment quality：（1） design the degree of the independence correspondence based on the degree of independence; （2） construct the degree of the stopping correspondence based on the degree of stopping usage; （3） propose the degree of semantic correspondence that computed by the seed pairs＇ correspondence and word pairs＇ similarity based on additivity of probability; （4） construct the alignment correspondence degree of the first part and last part between the term pairs in order to cancel the term pairs whose value is equal to zero; （5） present the similarity degree of the part of speech between the term pairs considering the patterns that define the morphosyntactic structures of terms; and （6） obtain the value ofg based on GIZA＋＋. The term-aligned degree （a） is computed by the six attributes of term pairs based on multiplication of probability after analyzing their correlations. Term pairs is extracted by select the term-aligned pairs based on the candidate term pairs whose a is more than the term-aligned threshold that make the tolerance of recall is less than 1%. The simulation results of Chinese-English term alignment show that automatic term alignment based on AGiza can be used to extract cross-phylum term pairs effectively. Furthermore, it outperforms GIZA＋＋, the Dice coefficient, the Φ2 coefficient, the log-likelihood ratio, K-VEC and DKVEC.

作者刘胜奇朱东华

机构地区北京理工大学管理与经济学院

出处《软件学报》 EI CSCD 北大核心 2015年第7期1650-1661,共12页 Journal of Software

基金国防基础科学研究计划(Q172011A001)

关键词术语对齐多语言术语抽取跨语言跨语系 term alignment multilingual term extraction cross-language cross-phylum

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张春祥,李生,赵铁军.基于中心语块扩展的短语对齐[J].计算机研究与发展,2006,43(9):1658-1665. 被引量：3
2何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
3张晶,曹存根,王石.一种基于Web的术语翻译获取及验证方法[J].计算机科学,2012,39(7):170-174. 被引量：3
4张涛,余正涛,郭剑毅,曹先彬.融合特征约束模型的纳西-汉语双语词语对齐算法[J].西安交通大学学报,2011,45(10):48-53. 被引量：2
5周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
6孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量：30
7沈世奇,刘洋,孙茂松.基于对偶分解的词语对齐搜索算法[J].中文信息学报,2013,27(4):9-15. 被引量：2
8符建辉,曹存根,王石.基于区分词的汉语隐喻短语识别[J].计算机科学,2010,37(10):193-196. 被引量：2

二级参考文献96

1吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
2张威,周昌乐.汉语隐喻理解的逻辑描述初探[J].中文信息学报,2004,18(5):23-28. 被引量：18
3吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
4张锋,樊孝忠,许云.Chinese Term Extraction Based on PAT Tree[J].Journal of Beijing Institute of Technology,2006,15(2):162-166. 被引量：2
5王斌.汉语语料库自动对齐研究（博士学位论文）[M].北京:中国科学院计算技术研究所,1999..
6Oakes M P,Paice C D.Term extraction for automatic abstracting[M] //Bourigault D,Jacquemin C,L'Homme M-C.Recent Advances in Computational Terminology.John Benjamins Publishing Company,2001:353-370.
7Fortuna B,Lavrac N,Velardi P.Advancing Topic Ontology Learning through Term Extraction[C].PRICAI 2008,LNAI 5351,2008:626-635.
8Cerbah F,Euzenat J.Using Terminology Extraction to Improve Traceability from Formal Models to Textual Requirements[C].NLDB 2000,LNCS 1959,2001:115-126.
9Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C] //Proceedings of COLING'92,1992:977-981.
10Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word terms:the C-value/NC-value Method[J].International Journal on Digital Libraries,2000,3(2):115-130.

共引文献79

1于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
2蒋晓玲.中国EFL学习者对doubt的使用研究——一项基于BROWN、LOB和WECCL语料库的研究[J].绍兴文理学院学报,2020(6):84-88.
3黄俊红,范云,黄萍.双语平行语料库对齐技术述评[J].外语电化教学,2007(6):21-25. 被引量：20
4许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
5张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2):16-23. 被引量：11
6于海江.平行语料库与双语词典编纂[J].辞书研究,2006(1):108-114. 被引量：2
7叶莎妮,吕雅娟,黄赟,刘群.基于Web的双语平行句对自动获取[J].中文信息学报,2008,22(5):67-73. 被引量：12
8程岚岚.基于正则表达式的大规模网页术语对抽取研究[J].情报杂志,2008,27(11):62-64. 被引量：13
9李秀英.术语与机器翻译——实验结果分析与术语数据库的构建[J].实验室研究与探索,2008,27(11):51-56. 被引量：3
10周书君,马静,朱恒民.基于Ontology的国防产品信息搜索系统[J].现代图书情报技术,2008(11):40-43.

同被引文献40

1那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
2熊晶,钟珞,王爱民.基于实例和本体的甲骨文机器翻译方法研究[J].华中科技大学学报（自然科学版）,2013,41(S2):222-226. 被引量：5
3戴伟长.国内外机器翻译进展状况[J].软件世界,1994(12):2-4. 被引量：5
4杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
5杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
6贾美英,杨炳儒,郑德权,杨靖.采用CRF技术的军事情报术语自动抽取研究[J].计算机工程与应用,2009,45(32):126-129. 被引量：16
7康小丽,章成志,王惠临.基于可比语料库的双语术语抽取研究述评[J].现代图书情报技术,2009(10):7-13. 被引量：6
8于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
9冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术,2010(1):28-35. 被引量：32
10王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41

引证文献4

1于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
2苏依拉,刘婉婉,乌尼尔.基于实例相似度检测的蒙汉机器翻译方法[J].北京工业大学学报,2017,43(9):1366-1372. 被引量：5
3苏依拉,赵亚平,牛向华.基于统计的蒙汉机器翻译中词对齐方法研究[J].中文信息学报,2018,32(6):44-51. 被引量：2
4向露,周玉,宗成庆.基于中英文单语术语库的双语术语对齐方法[J].中国科技术语,2022,24(1):14-25. 被引量：3

二级引证文献11

1侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35. 被引量：26
2李莎,齐灿.基于双语E-Chunk的机器辅助翻译模型仿真[J].计算机仿真,2019,36(12):345-348. 被引量：5
3吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音.乌兹别克语词干提取算法的比较研究[J].中文信息学报,2020,34(1):45-50. 被引量：2
4何春燕.不同语义认知视角下交互式智能翻译方法研究[J].宿州学院学报,2021,36(1):52-56. 被引量：1
5赵旭,苏依拉,仁庆道尔吉,石宝.非自回归翻译模型在蒙汉翻译上的应用[J].计算机工程与应用,2022,58(12):310-316. 被引量：2
6胡晴云.基于实例相似度检测的算法分析及应用[J].兰州文理学院学报（自然科学版）,2022,36(5):39-43.
7李浩宇,梁红.基于知识图谱的国际术语翻译研究热点、前沿与启示[J].中国科技术语,2023,25(2):61-71. 被引量：4
8黄旦华.术语库制作工具应用对比研究[J].湖北工程学院学报,2023,43(2):52-57. 被引量：1
9张焕梅.自动化迅速发展背景下基于深度学习的翻译系统研究[J].自动化与仪器仪表,2023(9):197-200.
10孙玉娇.基于深度学习的舞弊识别模型缺陷自动检测方法[J].自动化与仪器仪表,2024(4):97-101.

1麦热哈巴·艾力,王志洋,吐尔根·依布拉音.一种提高维吾尔语-汉语词语对齐的方法研究[J].小型微型计算机系统,2012,33(11):2551-2555. 被引量：9
2周蓝海,蔡东风.多策略英汉词对齐方法的研究[J].计算机工程与设计,2009,30(17):4138-4140. 被引量：5
3VEC变频调速器在空气压缩机上的应用[J].变频器世界,2010(5):106-108.
4苏翔,李玉鑑.GIZA++计算性能分析[J].计算机工程与科学,2010,32(5):147-149. 被引量：4
5曲培树,董文会,陈志国.一种利用R/G值检测人脸的方法[J].德州学院学报,2007,23(4):28-31. 被引量：1
6周曲,颜国正,王文兴.相关系数分析在模糊图像参数识别中的应用[J].光学精密工程,2007,15(6):988-995. 被引量：13
7余萍,崔少飞,赵振兵,芦杉,耿方方.基于小波变换和对齐度准则的图像配准方法[J].通信技术,2008,41(5):149-151. 被引量：2
8宋晓飞,许慎洋.基于特征区域的医学图像配准算法应用研究[J].电子技术（上海）,2009(5):57-60.
9宋晓峰,刘芳,李志远.基于区域一致性和NSCT的SAR图像分割[J].计算机工程,2009,35(11):234-236. 被引量：2
10刘颖,铁铮,余畅.汉英短语翻译对的自动抽取[J].计算机应用与软件,2012,29(7):69-72. 被引量：3

软件学报

2015年第7期

浏览历史

内容加载中请稍等...

基于多策略融合Giza++的术语对齐法被引量：4

参考文献8

二级参考文献96

共引文献79

同被引文献40

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于多策略融合Giza++的术语对齐法 被引量：4

参考文献8

二级参考文献96

共引文献79

同被引文献40

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于多策略融合Giza++的术语对齐法被引量：4