-
题名基于深度学习的跨语言词汇对齐模型研究
被引量:3
- 1
-
-
作者
余传明
王峰
安璐
-
机构
中南财经政法大学信息与安全工程学院
武汉大学信息管理学院
-
出处
《情报理论与实践》
CSSCI
北大核心
2020年第9期150-158,共9页
-
基金
国家自然科学基金面上项目“面向跨语言观点摘要的领域知识表示与融合模型研究”(项目编号:71974202)
国家自然科学基金重大课题“国家安全大数据综合信息集成与分析方法”(项目编号:71790612)的成果之一。
-
文摘
由于能够捕捉语言的内在规律,词向量在自然语言处理任务中得到广泛应用,通过跨语言词汇对齐能够将词向量的应用推广到跨语言情境中。文章在词汇深度表示学习的基础上通过改进生成对抗网络结构,提出一种新的词汇对齐模型(Word Alignment Model,WAM)。为验证模型的有效性,在三组跨语言语料数据集上进行对比实验。与最好的无监督方法相比,WAM模型在P@1上提升0.25%,在P@10上提升0.46%。实验结果表明,通过改进生成对抗网络,能够以无监督的方式更好地实现词汇的跨语言对齐。研究结果对完成领域知识的跨语言迁移,解决跨语言情感分析、信息检索和问答系统等跨语言信息处理任务有重要意义。
-
关键词
词汇对齐
跨语言词向量
生成对抗网络
深度学习
无监督学习
-
Keywords
word alignment
cross-lingual word embedding
generative adversarial network
deep learning
unsupervised learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于词典和统计的语料库词汇级对齐算法
被引量:8
- 2
-
-
作者
刘小虎
吴葳
李生
赵铁军
蔡萌
鞠英杰
-
机构
哈尔滨工业大学计算机科学与工程系
黑龙江大学信息管理系
-
出处
《情报学报》
CSSCI
北大核心
1997年第1期21-27,共7页
-
文摘
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。
-
关键词
语料库
词汇级对齐
共现概率
信息处理
-
Keywords
corpus, align at word level, probability of concurrence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名《左传》及其注疏文献的内容自动对齐研究
被引量:2
- 3
-
-
作者
徐润华
梁社会
-
机构
金陵科技学院人文学院
南京师范大学国际文化教育学院
-
出处
《金陵科技学院学报(社会科学版)》
2019年第2期84-88,共5页
-
基金
国家社会科学基金项目(15BYY096)
江苏高校哲学社会科学研究基金项目(2018SJA0473)
-
文摘
自动对齐的目的是将半结构化的注疏文献转化为结构化形式,从而为先秦文献的信息处理提供可靠的帮助。探讨《左传》及其注疏文献的三种自动对齐方式:句子对齐、注释对齐和词汇对齐。在句子及注释对齐试验中,对齐的正确率为99.8%,召回率为98.2%,效果较为理想。提出两种词汇对齐的原则,并通过具体实例展示《左传》及其注疏文献的词汇对齐效果。
-
关键词
注疏文献
句子对齐
注释对齐
词汇对齐
内容自动对齐
《左传》
-
Keywords
annotated literature
sentence alignment
annotation alignment
lexicon alignment
aufomatic content alignment
Zuo Zhuan
-
分类号
H141
[语言文字—汉语]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语言学资源的汉-英机器翻译
被引量:1
- 4
-
-
作者
金鹏
张春祥
冯禹瑄
贾永刚
王淇桢
-
机构
哈尔滨理工大学软件与微电子学院
-
出处
《科学技术创新》
2021年第4期99-100,共2页
-
基金
黑龙江省大学生创新创业训练计划项目(202010214092)。
-
文摘
翻译知识是决定机器译文输出质量的关键性因素。本文给出了一种基于语言学资源的机器翻译框架,对汉英双语句对进行词汇对齐,根据词汇对齐结果提取汉英对译片断对。利用对译片断对来实现输入汉语句子的翻译转换任务。实验结果表明:本文所提出的方法能够对输入的汉语句子进行较好地翻译。
-
关键词
翻译知识
机器翻译
双语句对
词汇对齐
对译片断对
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-