摘要
新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。
news event element extract aims to extract the event arguments that describe the topic event in the news text,such as time,location,people,and organization.To perform the event element extraction on low-resource languages,this paper proposes a Chinese-Vietnamese Cross-language News Event Element extraction via machine reading comprehension.First,we apply the key sentence retrieval from the long news text to filter noisy sentences.Then we use the cross-language machine reading comprehension model to transfer rich resource language knowledge to improve the performance of Vietnamese news event element extraction.Experiments on the self-built Chinese-Vietnamese bilingual data set prove the effectiveness of this method.
作者
朱恩昌
余正涛
高盛祥
黄于欣
郭军军
ZHU Enchang;YU Zhengtao;GAO Shengxiang;HUANG Yuxin;GUO Junjun(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第6期86-95,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(U21B2027,U23A20388,62266028)
云南省重大科技专项计划项目(202302AD080003,202202AD080003,202303AP140008)
云南省基础研究重点项目(202301AS070047)
昆明理工大学“双一流”创建联合专项(202201BE070001-021)。
关键词
新闻事件要素抽取
长文本语义建模
跨语言知识迁移
阅读理解
news event element extraction
long text sematic modeling
cross-language knowledge transfer
reading comprehension