摘要
双语句子对齐能够为机器翻译、信息检索等跨语言领域任务提供高质量的平行语料,在低资源的老挝语自然语言处理研究中显得尤为重要。由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果。此外,人名、地名作为新闻要素,大多属于未登录词,也给汉老句子对齐研究增加了难度。该文提出了一种融合局部和全局语义信息的汉老双语句子对齐方法。首先,将汉老双语句长特征和人名地名特征融入Glove词向量,然后利用双向门控循环单元对特征词向量进行编码,以得到更细粒度的句子局部信息。其次,引入交互注意力机制,提取双语句子中的全局信息,保证对上下文语义特征的有效利用。最后,在多层感知机的基础上引入KM算法,该方法可以处理非单调对齐文本,提高模型的泛化能力。实验结果表明,该方法显著提高了汉老双语新闻语料的对齐性能。
To deal with the non-monotonic alignment(cross alignment and sentence missing)in Chinese-Lao bilingual texts,this paper presents a bilingual sentence alignment methods with local and global semantic information.Firstly,we integrate the Chinese and Lao sentence-length features,person names and place names into Glove word vectors as the input of bidirectional gated recurrent unit.Secondly,we introduce interactive attention mechanism to extract the global information in bilingual sentences to ensure the effective use of contextual semantic features.Finally,we introduce the KM algorithm on multilayer perceptron to process non-monotonic aligned text.The experimental results show that this method significantly improve the alignment performance of Chinese-Lao bilingual news corpora.
作者
谭琪辉
周兰江
张建安
TAN Qihui;ZHOU Lanjiang;ZHANG Jian'an(The Key Laboratory of Intelligent Information Processing School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
出处
《中文信息学报》
CSCD
北大核心
2023年第1期79-87,共9页
Journal of Chinese Information Processing