-
题名面向汉越跨语言事件检索的事件预训练方法
- 1
-
-
作者
吴少扬
余正涛
黄于欣
朱恩昌
高盛祥
邓同杰
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第4期78-85,共8页
-
基金
国家自然科学基金(U21B2027,61972186,61732005,61866019)
云南省重大科技专项(202002AD080001,202202AD080003,202103AA080015)
云南省高新技术产业专项(201606)。
-
文摘
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务。由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务。因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练。在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升1%~3%MAP值,2%~4%NDCG值,证明了该文方法的有效性。
-
关键词
事件预训练
跨语言事件检索
掩码语言模型
对比学习
-
Keywords
event pre-training
cross-lingual event retrieval
masked language model
contrastive learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于要素关联图的汉越跨语言事件检索方法
- 2
-
-
作者
赵周颖
余正涛
黄于欣
陈瑞清
朱恩昌
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《现代电子技术》
北大核心
2024年第7期127-132,共6页
-
文摘
汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪声文本,现有的模型不能很好地捕获事件匹配特征,匹配效果欠佳。基于此,文中提出基于要素关联图的汉越跨语言事件检索方法。首先,预训练一个汉越双语词嵌入来解决跨语言问题;然后,抽取查询文档中的关键信息(关键词和实体)以构建要素关联图;最后,通过引入一个图编码器对构建的要素图进行编码,生成结构化的事件信息来增强传统的事件检索模型。实验结果表明文中提出的方法优于传统的基线方法。
-
关键词
跨语言事件检索
跨语言词嵌入
要素关联图
图神经网络
文本匹配
事件检索
-
Keywords
cross⁃lingual event retrieval
cross⁃lingual word embedding
arguments relational graph
graph neural network
text match
fact retrieval
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融入事件知识的汉语-越南语跨语言事件检索
- 3
-
-
作者
黄于欣
邓同杰
余正涛
线岩团
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2023年第10期890-901,共12页
-
基金
国家自然科学基金项目(No.U21B2027,61972186,62266028)
云南省科技重大专项项目(No.202302AD080003,202103AA 080015,202202AD080003)
+2 种基金
云南省重点研发计划项目(No.202203AP140100)
云南省基础研究计划项目(No.202301 AS070047,202301AT070471)
昆明理工大学“双一流”创建联合专项项目(No.202201BE070001-021)资助。
-
文摘
汉语-越南语跨语言事件检索任务是指根据输入的汉语查询检索表达相同事件的越南语文档.现有的跨语言检索模型在汉语-越南语低资源检索上对齐效果不佳,并且单纯的语义匹配检索难以理解复杂查询的事件语义信息.针对目标问题,文中提出融入事件知识的汉语-越南语跨语言事件检索模型,构建汉语-越南语跨语言事件预训练模块,进行持续的预训练,改善模型在汉语-越南语低资源语言上的表征效果.并且基于对比学习,对事件知识的掩盖预测值与真实值进行差异判别,促使模型更好地理解和捕捉事件知识特征.在跨语言事件检索任务和问答任务上的实验表明,文中方法性能有所提升.
-
关键词
跨语言事件检索
事件知识
事件预训练
对比学习
-
Keywords
Cross-Language Event Retrieval
Event Knowledge
Event Pre-training
Contrastive Learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-