融合特征约束模型的纳西-汉语双语词语对齐算法被引量：2

A Bilingual Word Alignment Algorithm of Naxi-Chinese Based on Feature Constraint Models

下载PDF

导出

摘要针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%. A bilingual word alignment algorithm of Naxi-Chinese based on feature constraint models is proposed to reduce the difficulty of bilingual word alignment for Naxi-Chinese which has huge difference in syntactic structure. Two feature constraint models- interval distortion model and position transformation model are established by counting the traits of interval distortion and position transformation in corpus, and are integrated into a log-linear framework of word alignment. Then parameters in the models are trained using the minimum error rate algorithm and the best alignment results are eventually searched. Experimental results on IBM Model3 show that the proposed algorithm increases the word alignment accuracy of Naxi-Chinese about 21.9%.

作者张涛余正涛郭剑毅曹先彬

机构地区昆明理工大学信息工程与自动化学院昆明理工大学智能信息处理重点实验室北京航空航天大学电子信息工程学院

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第10期48-53,共6页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(60863011) 云南自然科学基金重点资助项目(2008CC023)

关键词词语对齐纳西汉语特征约束模型 word alignment Naxi Chinese feature constraint model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1BROWN P F, PIETRA D V J, PIETRA D S A, et al. The mathematics of statistical machine translation: pa- rameter estimation[J].Computational Linguistics, 1993, 19(2):263-311.
2VOGEL S, NEY H, TILLMANN C. HMM-based word alignment in statistical translation[C]//Proceed- ings of the 16th International Conference on Computa- tional Linguistics. Stroudsburg, PA, USA: Associa- tion for Computational Linguistics, 1996 : 836-841.
3TASKAR B, LACOSTE-JULIEN S, KLEIN D. A discriminative matching approach to word alignment [C]//Proceedings of the Conference on Human Lan- guage Technology and Empirical Methods in Natural Language Poreessing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2005: 73-80.
4MOORE IL A discriminative framework for bilingual word alignment [C] /// Proceedings of the Conference on Human Language Technology and Empirical Meth- ods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2005 : 81-88.
5CHERRY C, LIND. A probability model to improve word alignment[C] /// Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computa- tional Linguistics, 2003 : 88-95.
6LIU Yang, LIU Qun, LIN Shouxun. Log-linear mod- els for word alignment[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA. Association for Computational Linguistics, 2005: 459-466.
7LIU Yang, LIU Qun, LIN Shouxun. Discriminative word alignment by linear modeling [J~. Computational Linguistics, 2010, 36(3):303-339.
8AYAN N F, DORR B J. A maximum entropy ap- proach to combining word alignments [C] ff Proceed- ings of the Human Language Technology Conference of the North American Chapter of the ACL. Strouds- burg, PA, USA: Association for Computational Lin- guistics, 2006: 96-103.
9OCH F J, NAY H. Discriminative training and maxi- mum entropy models for statistical machine translation [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002: 295-302.
10TOUTANOVA K, TOLAG I H, MANNING C D. Extensions to HMM-based statistical word alignment models [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA:Association for Computational Linguistics, 2002. 87-94.

同被引文献22

1张春祥,李生,赵铁军.基于中心语块扩展的短语对齐[J].计算机研究与发展,2006,43(9):1658-1665. 被引量：3
2何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
3祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
4周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
5蒋德良.基于规则匹配的突发事件结果信息抽取研究[J].计算机工程与设计,2010,31(14):3294-3297. 被引量：17
6符建辉,曹存根,王石.基于区分词的汉语隐喻短语识别[J].计算机科学,2010,37(10):193-196. 被引量：2
7梁吉光,田俊华,姜杰.基于改进HMM的文本信息抽取模型[J].计算机工程,2011,37(20):178-179. 被引量：9
8孙荣,周文,刘宗田.用规则抽取句子中事件信息[J].小型微型计算机系统,2011,32(11):2309-2314. 被引量：10
9黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57-59. 被引量：9
10李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8

引证文献2

1刘胜奇,朱东华.基于多策略融合Giza++的术语对齐法[J].软件学报,2015,26(7):1650-1661. 被引量：4
2王玉娇,耿思,李宁.东巴古籍资源的数字化及数据管理[J].电子测量与仪器学报,2017,31(4):636-643. 被引量：6

二级引证文献10

1于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
2王玉娇,李宁,陈若愚.XML数据库管理系统在古籍编目管理中的应用[J].北京信息科技大学学报（自然科学版）,2017,32(3):18-24. 被引量：1
3苏依拉,刘婉婉,乌尼尔.基于实例相似度检测的蒙汉机器翻译方法[J].北京工业大学学报,2017,43(9):1366-1372. 被引量：5
4熊峻峰,石和荣.基于开放式架构的DDS研究与实现[J].国外电子测量技术,2017,36(12):87-91. 被引量：5
5夏欣雨,朱春梅,吴国新.融合小波变换和模糊集的东巴古籍图像增强算法[J].北京信息科技大学学报（自然科学版）,2018,33(3):47-51. 被引量：3
6苏依拉,赵亚平,牛向华.基于统计的蒙汉机器翻译中词对齐方法研究[J].中文信息学报,2018,32(6):44-51. 被引量：2
7武文杰,周余姣.存藏再生传承--论东巴古籍文献的保护[J].山东图书馆学刊,2020(3):35-40. 被引量：5
8何敏,王文静,王琼,李小龙,吴静,陆静静.基于FPGA的呼吸机质检数据管理系统设计[J].国外电子测量技术,2020,39(6):102-105. 被引量：3
9向露,周玉,宗成庆.基于中英文单语术语库的双语术语对齐方法[J].中国科技术语,2022,24(1):14-25. 被引量：3
10王咏梅,高宇,任书俊,刘新宇,马巍巍,邓勇,宋莉.安徽中医药古籍书目提要数字化建设探析[J].合肥师范学院学报,2023,41(3):5-9.

1金涛,金志江,童水光.一种支持外形创新设计的重建模型表达及建模方法[J].汽车工程,2005,27(5):615-618.
2陈金凤,杨慧中,邓玉俊.一种基于LDA和FCM的BPA多模型软测量方法[J].华东理工大学学报（自然科学版）,2010,36(1):126-129. 被引量：1
3寇利平.归化、异化与句法结构差异在英汉翻译中的体现与运用[J].黑龙江科技信息,2010(23):140-140. 被引量：1
4方恩博,韩彩芸,刘嘉勇.Auto-Aligned Sharing Fuzzy Fingerprint Vault[J].China Communications,2013,10(10):145-154. 被引量：1
5许弟建,崔庆林,王定军.A/D转换器转换特性参数自动测试系统的设计[J].电子测量技术,2006,29(5):126-128. 被引量：2
6于胜民,张树武,徐波.汉英双语混合声学建模方法研究[J].中文信息学报,2004,18(5):78-84. 被引量：4
7张晓严,马杰,武利涛.基于过完备字典学习的全变分图像去噪方法[J].河北工业大学学报,2017,46(1):1-7. 被引量：1
8朱艺波,闫惠.巧用数据库软件优化数据处理方式——基于Visual Foxpro软件的教育管理工作应用[J].教学仪器与实验,2013,29(11):62-64.
9胡小东.翻译中的静态与动态转换[J].商情,2009(5):47-47.
10姜文涛,刘万军,袁姮.基于软特征理论的目标跟踪研究[J].计算机学报,2016,39(7):1334-1355. 被引量：18

西安交通大学学报

2011年第10期

浏览历史

内容加载中请稍等...

融合特征约束模型的纳西-汉语双语词语对齐算法被引量：2

参考文献11

同被引文献22

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

融合特征约束模型的纳西-汉语双语词语对齐算法 被引量：2

参考文献11

同被引文献22

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

融合特征约束模型的纳西-汉语双语词语对齐算法被引量：2