期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
融合注意力机制和指针标注的实体关系联合抽取方法 被引量:3
1
作者 唐楠楠 陈吉 +1 位作者 侯磊 王星 《小型微型计算机系统》 CSCD 北大核心 2023年第2期256-262,共7页
实体关系三元组是组成知识图谱的基本单位,其抽取的效果直接影响大型知识图谱的构建.针对目前多数关系抽取模型存在语义特征表达能力不足、实体关系发生重叠难以抽取等问题,本文提出了一种融合注意力机制和指针标注的实体关系联合抽取模... 实体关系三元组是组成知识图谱的基本单位,其抽取的效果直接影响大型知识图谱的构建.针对目前多数关系抽取模型存在语义特征表达能力不足、实体关系发生重叠难以抽取等问题,本文提出了一种融合注意力机制和指针标注的实体关系联合抽取模型.模型采用预训练语言模型BERT训练词向量,利用多头注意力机制获取丰富的语义特征信息,通过指针标注抽取主语,然后采用改进的层归一化将主语特征作为条件信息与句子向量进行特征融合来增强模型表达能力,最终在预定义的关系条件下抽取主语对应的宾语,通过分层的指针标注处理重叠问题.本文使用公开数据集NYT和WebNLG进行测试,实验结果表明该模型在两个数据集上的F1值相比基线模型分别提高了2.5%和0.9%,可有效提升三元组抽取效果,并在一定程度上解决了三元组重叠问题. 展开更多
关键词 知识图谱 实体关系联合抽取 BERT 注意力机制 指针标注
下载PDF
基于百科语料的中英文双语词典提取 被引量:2
2
作者 王星 单力秋 +3 位作者 侯磊 于济凡 陈吉 陶明阳 《中文信息学报》 CSCD 北大核心 2021年第1期25-33,共9页
双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题。相比之下,基于部分双语语料的方法由于利用... 双语词典是跨语言自然语言处理中一项非常重要的资源。目前提取双语词典的方法主要是基于平行语料库和基于可比语料库,但是这两种方法在提取新词或者某些技术术语时都存在双语资源匮乏的问题。相比之下,基于部分双语语料的方法由于利用的是新闻或者百科知识,故可以很好地解决这个问题,然而目前基于部分双语语料的方法主要集中在对文本内容的提取上,缺乏对文本内容以外部分的提取。针对此不足,该文以中英文两种语言为例,提出了一种基于百科语料的中英文双语词典的提取方法。该方法是在对文本内容提取的基础上结合在线百科的结构特点,分别用五种不同的方法对百科语料进行提取,综合查重后得到的双语信息数量为969 308条。与以往的基于部分双语语料的双语词典的提取方法相比,该方法在在线百科语料上的提取数量提高了170.75%。 展开更多
关键词 双语词典提取 跨语言自然语言处理 部分双语语料
下载PDF
基于维基百科的冬奥会概念下的低频词条双语迭代扩展
3
作者 王星 陶明阳 +4 位作者 侯磊 于济凡 单力秋 张馨如 陈吉 《中文信息学报》 CSCD 北大核心 2021年第2期33-40,51,共9页
随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平... 随着2022年北京冬奥会的临近,有必要构建一个与冬奥会相关的垂直领域知识图谱,但目前网络上没有较完整的冬奥会相关术语集,因此,需要用集合扩展的方法对冬奥会术语集进行补充。近年来,集合扩展的方法主要基于Word2Vec进行研究,但扩展平均词频较低的冬奥会中文领域时效果并不理想。该文提出了中英文双语迭代扩展的方法,利用数量多、词频较高的英文语料库和中英文跨语言同义词数据集解决中文数据集平均质量较低的问题。该文使用维基百科中冬奥会领域相关的词条组成的数据集进行实验。实验结果表明,与其他集合扩展方法相比,该文提出的扩展方法扩展出的新词质量提升了12%以上。 展开更多
关键词 集合扩展 低频词 迭代扩展
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部