融入线性句法信息的神经网络双语词对齐算法

A NEURAL NETWORK BILINGUAL WORD ALIGNMENT ALGORITHM INCORPORATING LINEAR SYNTACTIC INFORMATION

下载PDF

导出

摘要目前的双语词对齐模型主要依赖大量人工标注语料,不仅耗费时间成本并且人工标注质量不稳定,为了解决这一问题,提出一种基于双语句对齐语料构建双语词对齐神经网络模型的方法。使用GIZA++进行双语词对齐,设计标注方案,生成双语词对齐语料,作为神经网络初始训练输入;为了充分挖掘句子间潜在的语言特征,提出一种在神经网络的编码层融入双语线性句法信息的词对齐方法。实验基于英中专利与标准句对齐语料进行,神经网络对齐的准确率达到89.05%。 The current bilingual word alignment model mainly relies on manual tagging of bilingual word alignment corpus,which costs a lot of manpower and makes the quality of manual labeling unstable.In order to solve this problem,this paper proposes a method for modeling the neural network for term extraction based on bilingual sentence alignment corpus.GIZA++was used to align bilingual words and design annotation schemes,thus generating the tagged corpus for bilingual word alignment as the initial training input of neural network.In order to fully explore the potential language features between sentences,from the perspective of deep learning,a word alignment method integrating bilingual linear syntax tree structure into the coding layer of neural network was proposed.The experiment was carried out based on English-Chinese patent and standard sentence alignment corpus,with an accuracy of 89.05%.

作者尹宝生张斌斌李绍鸣 Yin Baosheng;Zhang Binbin;Li Shaoming(Shenyang Aerospace University,Shenyang 110136,Liaoning,China;Human-Computer Intelligence Research Center,Shenyang 110136,Liaoning,China)

机构地区沈阳航空航天大学辽宁省知识工程与人机智能研究中心

出处《计算机应用与软件》北大核心 2023年第9期278-282,319,共6页 Computer Applications and Software

基金国防技术基础项目(JSQB2017206C002)。

关键词线性句法词对齐神经网络 linear syntactic Word alignment Neural network

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1李萍,杨勇,任鸽,赛买提.艾力.基于HMM与词典的汉维词对齐研究[J].现代计算机,2017,23(21):7-10. 被引量：1
2谢庚全.浅议基于GIZA++的汉英手动词对齐法[J].海南广播电视大学学报,2017,18(4):7-11. 被引量：2
3莫媛媛,郭剑毅,余正涛,毛存礼,牛翊童.基于深层神经网络(DNN)的汉-越双语词语对齐方法[J].山东大学学报（理学版）,2016,51(1):77-83. 被引量：3
4贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
5赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
6李志杰,耿朝阳,宋鹏.LSTM-TextCNN联合模型的短文本分类研究[J].西安工业大学学报,2020,40(3):299-304. 被引量：15

二级参考文献52

1张孝飞,陈肇雄,黄河燕,王建德.基于锚点词对的双语词对齐算法[J].小型微型计算机系统,2006,27(2):330-334. 被引量：10
2吴宏林,刘绍明,于戈.基于加权二部图的汉日词对齐[J].中文信息学报,2007,21(5):101-106. 被引量：7
3LE H P, HOT V. A maximum entropy approach to sentence boundary detection of Vietnamese texts [ C ]//IEEE International Conference on Research, Innovation and Vision for the Future-RIVF 2008. New York: IEEE, 2008 : 1-6.
4HUYIN N T M, ROUSSANALY A, VINH H T. A hybrid approach to word segmentation of Vietnamese texts[J]. Language and Automata Theory and Applications, 2008:240-249.
5越南语词法分析系统[EB/OL].[2014-11-12].http://www.10ria.fr/-lehong/tools/vn-Tokenizer.php.
6BROWN P F, P1ETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation:parameter estimation [ J ]. Computational Linguistics, 1993, 19 (2) : 263-311.
7Franz Josef Och, Hermann Ney. A systematic comparison of various statistical alignment models [ J ]. Computational Linguis- tics, 2003, 29(1):19-51.
8BLUNSOM P, COHN T. Discriminative word alignment with conditional random fields [ C ]//Proceedings of the 21 st Interna- tional Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Philadelphia:Association for Computational Linguistics, 2006:65-72.
9LIU Y, LIU Q, LIN S. Discriminative word alignment by linear modeling [ J ]. Computational Linguistics, 2010, 36 (3) :303- 339.
10HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[ J]. Neural Computation, 2006, 18 (7) : 1527-1554.

共引文献26

1谢庚全.浅议多种重映射融合的汉英词对齐法[J].海南广播电视大学学报,2019,20(2):29-33.
2胡小荣,姚长青,高影繁.融合多策略的短语识别方法[J].情报科学,2019,37(6):49-54. 被引量：1
3邢玉艳,刘耀,刘茹.基于schema的信息安全标准资源解析研究[J].情报工程,2019,5(5):108-118. 被引量：3
4谭磊,余欣洋,罗伟洋,曾维,代云强.基于深度学习的移动端语音识别系统设计[J].单片机与嵌入式系统应用,2020,20(9):28-31. 被引量：10
5王莉军,周越,桂婕,翟云.基于BiLSTM-CRF的中医文言文文献分词模型研究[J].计算机应用研究,2020,37(11):3359-3362. 被引量：14
6陈亚豪,张亚飞,余正涛,文永华,朱俊国.基于英语枢轴的汉-越双语词典构建方法[J].小型微型计算机系统,2020,41(11):2303-2307. 被引量：1
7文益民,杨鹏,文博奚,蔡翔.基于深度学习的中文网络招聘文本中的技能词抽取方法[J].桂林电子科技大学学报,2020,40(4):338-348. 被引量：4
8蒋婷.学术文献术语抽取方案比较研究[J].信息资源管理学报,2021,11(1):112-122. 被引量：5
9刘晨阳,唐慧丰.融入多特征的汉韩双语自动句对齐方法[J].智能计算机与应用,2021,11(1):28-31.
10郭佳敏,李鸿燕.一种改进LSTM训练的语音分离技术[J].电子设计工程,2021,29(11):140-145.

1邓入菡,张清华,黄帅帅,高满.基于多粒度特征融合的新型图卷积网络用于方面级情感分析[J].计算机科学,2023,50(10):80-87. 被引量：2
2刘思源,毛存礼,张勇丙.基于领域知识图谱和对比学习的汉越跨境民族文本检索方法[J].南京大学学报（自然科学版）,2023,59(4):610-619. 被引量：2
3陈中毅,丛茂萍.动词驱动还是填充语驱动?——来自动词及物性错配效应的证据[J].外语教学与研究,2023,55(5):727-738.
4罗松,汪春梅,袁非牛,戴维.基于差分融合句法特征的英语语法纠错模型[J].计算机系统应用,2023,32(10):293-300.
5才让东知,祁坤钰,贡保杰布.藏文单音节单纯词抽取方法设计与实现[J].西北民族大学学报（自然科学版）,2023,44(3):16-24.

计算机应用与软件

2023年第9期

浏览历史

内容加载中请稍等...

融入线性句法信息的神经网络双语词对齐算法

参考文献6

二级参考文献52

共引文献26

相关作者

相关机构

相关主题

浏览历史