-
题名融合词簇约束的汉越跨语言词嵌入
- 1
-
-
作者
武照渊
余正涛
黄于欣
-
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第1期82-91,共10页
-
基金
国家自然科学基金(61732005,U21B2027,61972186,61866020,61866019)
云南省重大科技专项(202002AD080001,202103AA080015)
云南省高新技术产业专项(201606)。
-
文摘
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。
-
关键词
汉越双语
低资源语言
跨语言词嵌入
词簇对齐
多粒度约束
-
Keywords
Chinese-Vietnamese bilingual
low-resource language
cross-lingual word embedding
word cluster alignment
multi-granularity constraints
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-