-
题名融合注意力机制和指针标注的实体关系联合抽取方法
被引量:3
- 1
-
-
作者
唐楠楠
陈吉
侯磊
王星
-
机构
辽宁工程技术大学电子与信息工程学院
临沂大学信息科学与工程学院
清华大学计算机科学与技术系
清华大学人工智能研究院知识智能研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第2期256-262,共7页
-
基金
国家自然科学基金项目(62006107,62006136,61402212)资助
NSFC-通用技术基础研究联合基金重点项目(U1736204)资助.
-
文摘
实体关系三元组是组成知识图谱的基本单位,其抽取的效果直接影响大型知识图谱的构建.针对目前多数关系抽取模型存在语义特征表达能力不足、实体关系发生重叠难以抽取等问题,本文提出了一种融合注意力机制和指针标注的实体关系联合抽取模型.模型采用预训练语言模型BERT训练词向量,利用多头注意力机制获取丰富的语义特征信息,通过指针标注抽取主语,然后采用改进的层归一化将主语特征作为条件信息与句子向量进行特征融合来增强模型表达能力,最终在预定义的关系条件下抽取主语对应的宾语,通过分层的指针标注处理重叠问题.本文使用公开数据集NYT和WebNLG进行测试,实验结果表明该模型在两个数据集上的F1值相比基线模型分别提高了2.5%和0.9%,可有效提升三元组抽取效果,并在一定程度上解决了三元组重叠问题.
-
关键词
知识图谱
实体关系联合抽取
BERT
注意力机制
指针标注
-
Keywords
knowledge graph
entity relation extraction
BERT
attention mechanism
pointer annotation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于百科语料的中英文双语词典提取
被引量:2
- 2
-
-
作者
王星
单力秋
侯磊
于济凡
陈吉
陶明阳
-
机构
辽宁工程技术大学电子与信息工程学院
清华大学计算机科学与技术系
清华大学人工智能研究院知识智能研究中心
清华大学北京信息科学与技术国家研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2021年第1期25-33,共9页
-
基金
国家自然科学基金(61402212,61533018)
国家“十三五”重点研发计划(2017YFB1002101)
+4 种基金
NSFC-通用技术基础研究联合基金(U1736204)
辽宁省高等学校杰出青年学者成长计划(LJQ2015045)
中国博士后基金(2016M591452)
辽宁省自然科学基金(2015020098)
辽宁工程技术大学青年教师提升计划(拔尖人才)项目。
-
文摘
双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题。相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提取上,缺乏对文本内容以外部分的提取。针对此不足,该文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。该方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,综合查重后得到的双语信息数量为969 308条。与以往的基于部分双语语料的双语词典的提取方法相比,该方法在在线百科语料上的提取数量提高了170.75%。
-
关键词
双语词典提取
跨语言自然语言处理
部分双语语料
-
Keywords
bilingual dictionary extraction
cross language natural language processing
part of bilingual corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于维基百科的冬奥会概念下的低频词条双语迭代扩展
- 3
-
-
作者
王星
陶明阳
侯磊
于济凡
单力秋
张馨如
陈吉
-
机构
辽宁工程技术大学电子与信息工程学院
清华大学计算机科学与技术系
清华大学人工智能研究院知识智能研究中心
清华大学北京信息科学与技术国家研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2021年第2期33-40,51,共9页
-
基金
国家自然科学基金(61402212)
国家自然科学基金(61533018)
+5 种基金
国家“十三五”重点研发计划(2017YFB1002101)
NSFC-通用技术基础研究联合基金(U1736204)
辽宁省高等学校杰出青年学者成长计划(LJQ2015045)
中国博士后基金(2016M591452)
辽宁省自然科学基金(2015020098)
辽宁工程技术大学青年教师提升计划(拔尖人才)。
-
文摘
随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。
-
关键词
集合扩展
低频词
迭代扩展
-
Keywords
set extension
low frequency word
iterative extension
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-