期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
中文医疗文本中的嵌套实体识别方法
1
作者 闫璟辉 宗成庆 徐金安 《软件学报》 EI CSCD 北大核心 2024年第6期2923-2935,共13页
实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体... 实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法.所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律.在公开的医疗文本实体识别的实验上取得良好的效果.数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%. 展开更多
关键词 实体识别 中文文本 医疗领域 嵌套实体识别 边界识别
下载PDF
科技文献算法嵌套实体识别
2
作者 刘齐凯 李鹏程 +1 位作者 陆伟 程齐凯 《数字图书馆论坛》 CSSCI 2022年第2期2-9,共8页
本文探讨了科技文献中算法实体的自动识别研究,着重研究嵌套型算法实体的识别优化问题。首先通过远程监督学习的方式构建算法实体训练语料,再引入数据增强技术扩充语料规模,最后应用BartNER模型实现科技文献中嵌套算法实体的自动识别。... 本文探讨了科技文献中算法实体的自动识别研究,着重研究嵌套型算法实体的识别优化问题。首先通过远程监督学习的方式构建算法实体训练语料,再引入数据增强技术扩充语料规模,最后应用BartNER模型实现科技文献中嵌套算法实体的自动识别。实验结果显示,在引用数据增强技术的基础上BartNER模型取得了76.66%的F1值,证明该方法对嵌套算法实体识别的有效性,同时证明数据增强策略能够有效提升嵌套算法实体的识别效果。 展开更多
关键词 实体识别 嵌套实体识别 数据增强 BART
下载PDF
联合多模态与多跨度特征的嵌套命名实体识别
3
作者 邱云飞 邢浩然 +1 位作者 于智龙 张文文 《计算机科学与探索》 CSCD 北大核心 2024年第6期1613-1626,共14页
嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学... 嵌套命名实体识别(NNER)因日趋重要的现实意义成为信息抽取的研究热点。但是,由于语料资源匮乏、穷举窗口受限以及跨度特征缺失等问题,面向垂直领域的NNER研究进展缓慢且存在实体识别错误或遗漏的问题。针对上述问题,提出一种以矿物学为研究背景,融合语料感知词典的垂直领域NNER模型。首先,结合点互信息、词频逆文本频率算法与注意力机制自动集成语料感知词典,同时扩展锚文本知识提升模型的训练精度。其次,从共享视角出发,设计三种多模态信息的融合策略,训练编码器学习字符、字形、词汇的扩展向量表示,通过三重积运算和切片注意力机制,筛选整合由多层感知机捕捉到的私有表征,缩小异质特征的空间差距。再次,以自底向上的层级架构确定跨度间的上下文关联,生成建议跨度集合,以双仿射机制和线性分类器获得目标跨度与相邻跨度、目标跨度内部表征、目标跨度边界等特征。最后,为目标跨度分配对应的实体类型标签。在六项数据集上的实验结果表明,相比于基线模型,提出的方法实现了显著的性能提升,能有效提升低资源场景下的NNER任务效果。 展开更多
关键词 嵌套命名实体识别 多模态 多任务 远程监督 矿物学
下载PDF
基于跨度解码的嵌套命名实体识别方法
4
作者 念永明 陈艳平 +1 位作者 秦永彬 黄瑞章 《计算机工程与应用》 CSCD 北大核心 2024年第1期174-181,共8页
跨度分类是嵌套命名实体识别常用的方法,但由于需要穷举并验证每一个跨度,存在高复杂度和数据不平衡的问题。并且,由于对每个跨度是单独进行预测,忽视了文本序列中存在的实体间的依赖关系。针对跨度分类方法存在的上述问题,提出了一种... 跨度分类是嵌套命名实体识别常用的方法,但由于需要穷举并验证每一个跨度,存在高复杂度和数据不平衡的问题。并且,由于对每个跨度是单独进行预测,忽视了文本序列中存在的实体间的依赖关系。针对跨度分类方法存在的上述问题,提出了一种基于跨度解码的嵌套命名实体识别方法。结合词性特征、字符特征、词特征以及上下文特征对文本进行编码,获取文本丰富的语义信息;识别可能的实体开始位置,在此基础上穷举可能的实体跨度,一定程度地减少潜在的实体跨度;使用基于注意力机制的解码器逐一对每个开始所对应的实体跨度的类型进行预测,解码过程中将已预测的实体信息进行传递,进而捕获和学习实体间的依赖关系。实验结果表明,跨度解码可以有效地改进跨度分类,所提出的方法在公共的英语嵌套实体数据集ACE2005和GENIA上的F1分数分别提高了0.45和0.14个百分点。 展开更多
关键词 嵌套命名实体识别 跨度分类 编解码 神经网络
下载PDF
MKE: 基于背景知识与多头选择的嵌套命名实体识别
5
作者 李政 涂刚 汪汉生 《中文信息学报》 CSCD 北大核心 2024年第4期86-98,107,共14页
目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型... 目前,在嵌套命名实体识别研究中,基于片段的方法将命名实体识别转化为分类问题,通过微调预训练模型,能够较好地识别嵌套实体,但仍存在领域知识缺乏和无法实现实体多分类的不足。该文提出基于知识嵌入的多头模型,用于解决这些问题。模型的改进包括:①引入领域背景知识,知识嵌入层以实体矩阵的形式,实现背景知识的无损嵌入;②将命名实体识别过程转化为多头选择过程,借助注意力打分模型,计算候选片段得分,最终在正确识别嵌套实体边界的同时实现实体多分类。实验结果表明,以实体矩阵方式实现的背景知识嵌入,可以有效提高识别准确率,在7个嵌套与非嵌套命名实体识别数据集上取得SOTA表现。 展开更多
关键词 嵌套命名实体识别 知识嵌入 多头选择 注意力 实体多分类
下载PDF
实体类别增强的汽车领域嵌套命名实体识别
6
作者 黄子麒 胡建鹏 《计算机应用》 CSCD 北大核心 2024年第2期377-384,共8页
针对中文汽车领域实体抽取任务中对嵌套实体、长实体识别效果差的问题,提出一种实体类别增强的嵌套实体抽取(ECE-NER)模型。首先,基于特征融合编码,提高模型对领域实体边界的感知能力;然后,尾词识别模块利用多层感知机得到实体尾词集合... 针对中文汽车领域实体抽取任务中对嵌套实体、长实体识别效果差的问题,提出一种实体类别增强的嵌套实体抽取(ECE-NER)模型。首先,基于特征融合编码,提高模型对领域实体边界的感知能力;然后,尾词识别模块利用多层感知机得到实体尾词集合;最后,前向边界识别模块基于义原构造的实体类别特征和自注意力机制得到实体类别增强的候选尾词表征,融合领域实体类别特征,利用双仿射编码器计算特定尾词和实体类型的实体跨度概率,从而确定命名实体。在某汽车企业生产线故障数据集、汽车工业故障抽取评测数据集CCL2022和中文医学文本数据集CHIP2020上进行模型验证。实验结果表明,所提模型在前两个数据集上的实体识别F1值比序列标注模型(BERT+BiLSTM+CRF)、基于跨度的实体抽取模型(PURE(Princeton University Relation Extraction)、SpERT(Span-based Entity and Relation Transformer))分别提高了4.1、1.8、1.6个百分点和9.0、5.4、7.3个百分点;在第一个数据集和第三个数据集中嵌套实体识别F1值与PURE、SpERT模型相比提高了13.3、8.3个百分点和21.7、9.3个百分点,验证了所提模型在嵌套实体识别上的有效性。 展开更多
关键词 特征融合 义原特征 自注意力机制 双仿射编码器 中文嵌套命名实体识别
下载PDF
基于语义分割的嵌套命名实体识别方法
7
作者 崔少国 胡光平 《计算机与现代化》 2024年第2期69-74,共6页
命名实体识别旨在从非结构化文本中提取实体,实体之间通常存在嵌套结构。然而,以往的研究大多只关注平面命名实体的识别,而忽略了嵌套实体。因此本文提出一种基于语义分割的嵌套命名实体识别方法,该方法将嵌套命名实体识别任务表述为一... 命名实体识别旨在从非结构化文本中提取实体,实体之间通常存在嵌套结构。然而,以往的研究大多只关注平面命名实体的识别,而忽略了嵌套实体。因此本文提出一种基于语义分割的嵌套命名实体识别方法,该方法将嵌套命名实体识别任务表述为一个语义分割任务。首先,计算单词和单词之间的元素相似性、余弦相似性以及双线性相似性;然后将3种相似性特征拼接作为一个图像输入到语义分割模型中,得到单词和单词之间的关系矩阵;最后,从关系矩阵提取出嵌套实体。实验结果表明,本文方法可以有效地识别出嵌套实体,在公开嵌套命名实体识别数据集GENIA上的F1值达到80.0%,优于现有大多数嵌套实体识别方法。 展开更多
关键词 嵌套命名实体识别 关系矩阵 语义分割 相关性特征
下载PDF
基于位置嵌入和多级预测的中文嵌套命名实体识别
8
作者 段建勇 朱奕霏 +2 位作者 王昊 何丽 李欣 《计算机工程》 CAS CSCD 北大核心 2023年第12期71-77,共7页
针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对... 针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对位置序列,通过关注中文文本中自带的位置信息,进一步挖掘嵌套实体与字符之间的关系,并且增强了嵌套实体与原始文本之间的联系。在编码层,利用排除最优路径的隐藏矩阵实现嵌套实体的初步识别。在解码层,计算实体边界的偏移量,重新确定实体边界,从而提高中文嵌套实体识别准确率。实验结果表明,在医疗和日常两个领域的数据集上,该模型的准确率、召回率、F1值相比于基线模型中的最优值分别提高了0.34、1.06、0.80和11.90、0.78、6.23个百分点,具有较好的识别性能。 展开更多
关键词 嵌套命名实体识别 位置嵌入 边界预测单元 条件随机场 多级预测
下载PDF
FCG-NNER:一种融合字形信息的中文嵌套命名实体识别方法
9
作者 陈鹏 马洪彬 +2 位作者 周佳伦 李琳宇 余肖生 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第12期222-231,共10页
基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,... 基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,提出了融合字形信息的基于跨度的中文嵌套命名实体识别算法——FCG-NNER,首先通过卷积神经网络获取汉字的字形信息,其次通过交叉Biaffine双仿射解码层实现原文信息与字形信息融合,然后通过对角融合CNN层获取不同跨度之间的局部相互作用,最后将交叉Biaffine双仿射解码层的输出与对角融合CNN层的输出相加后输入到全连接层中,得到最终的预测结果。采用2个具有代表性的中文嵌套NER数据集(CMeEE和CLUENER2020)用于实验验证。结果显示,FCG-NNER在CMeEE数据集中的精度为65.02%,召回率为67.93%,F1值达到0.664 4;在CLUENER2020数据集中的精度为79.45%,召回率为82.33%,F1值达到0.808 6,证明FCG-NNER算法的性能明显超过2个数据集的基线。 展开更多
关键词 中文嵌套命名实体识别 字形特征 跨度分类 特征融合
下载PDF
结合实体边界线索的中文命名实体识别方法
10
作者 黄蓉 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机工程与应用》 CSCD 北大核心 2024年第6期199-206,共8页
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检... 命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。 展开更多
关键词 命名实体识别 嵌套命名实体识别 线索标签 边界检测
下载PDF
基于词融合与跨度检测的中文嵌套命名实体识别 被引量:1
11
作者 陈淑振 窦全胜 +1 位作者 唐焕玲 姜平 《计算机应用研究》 CSCD 北大核心 2023年第8期2382-2386,2392,共6页
目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边... 目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边界检测的中文嵌套命名实体识别模型。该模型使用多词融合方法达到文本特征增强的目的,在设计的注入模块中将目标语句中字符相关的多个词汇信息进行合并,之后融入到BERT中,以此获得更全面的上下文信息,提供更好的跨度表示;其次添加跨度边界检测模块,通过感知分类器预测跨度的首尾字符来划分跨度边界。在公共数据集上的实验表明,该模型可有效提升识别准确率。 展开更多
关键词 中文嵌套命名实体识别 BERT模型 多词融合 跨度边界检测
下载PDF
基于分层ERNIE模型的中文嵌套命名实体识别 被引量:1
12
作者 贾李睿智 刘胜全 +3 位作者 刘源 魏富源 孔博 王光耀 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期97-103,共7页
近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外... 近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外延的关系自动构造嵌套命名实体;然后使用分层ERNIE模型在构建好的中文语料库上进行中文嵌套命实体识别的研究,相较于BERT等模型,ERNIE模型则是通过对中文实体语义单元的掩码,使得模型学习完整概念的语义表示.实验结果表明,分层ERNIE模型在ACE2004和ACE2005两个中文嵌套命名实体语料库上F1值分别为84.5%和85.9%,性能优于BERT和RoBERTa模型. 展开更多
关键词 嵌套命名实体识别 中文嵌套实体语料库 ERNIE 预训练模型
下载PDF
基于分割注意力与边界感知的中文嵌套命名实体识别算法 被引量:3
13
作者 张汝佳 代璐 +1 位作者 郭鹏 王邦 《计算机科学》 CSCD 北大核心 2023年第1期213-220,共8页
由于中文文本缺少天然分隔符,中文嵌套命名实体识别(Chinese Nested Named Entity Recognition,CNNER)任务极具挑战性,而嵌套结构的复杂性和多变性更增添了任务的难度。文中针对CNNER任务提出了一种新型边界感知层叠神经网络模型(Bounda... 由于中文文本缺少天然分隔符,中文嵌套命名实体识别(Chinese Nested Named Entity Recognition,CNNER)任务极具挑战性,而嵌套结构的复杂性和多变性更增添了任务的难度。文中针对CNNER任务提出了一种新型边界感知层叠神经网络模型(Boundary-aware Layered Nerual Model,BLNM)。首先通过构建了一个分割注意力网络来捕获潜在的分词信息和相邻字符之间的语义关系,以增强字符表示;然后通过动态堆叠扁平命名实体识别层的网络,由小粒度到大粒度逐层识别嵌套实体;最后为了利用被预测实体的边界信息和位置信息,构建了一个边界生成式模块,用于连接相邻的扁平命名实体识别层以及缓解错误传递问题。基于ACE 2005中文嵌套命名实体数据集的实验结果表明,该模型具有较好的性能。 展开更多
关键词 中文嵌套命名实体识别 分割注意力 边界生成式 层叠神经网络
下载PDF
导弹领域文本嵌套命名实体识别方法研究 被引量:1
14
作者 关景文 宋晓 +2 位作者 李晓庆 杨彤 周军华 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1757-1767,共11页
常规领域文本识别相对容易,而专业术语存在大量嵌套命名实体,识别难度大,是构建航空航天领域知识图谱的核心挑战之一。现有的命名实体识别技术多采用双向长短记忆网络加条件随机场(BiLSTM-CRF)识别实体,很难区分导弹领域术语的嵌套、交... 常规领域文本识别相对容易,而专业术语存在大量嵌套命名实体,识别难度大,是构建航空航天领域知识图谱的核心挑战之一。现有的命名实体识别技术多采用双向长短记忆网络加条件随机场(BiLSTM-CRF)识别实体,很难区分导弹领域术语的嵌套、交叉等复杂关系。为解决这一难题,在对领域文本进行嵌套实体标注的基础上,提出一种融合语言学特征、基于机器阅读理解的嵌套命名实体识别方法,引入先验知识、改变解码方式,以问答形式进行多任务预测。实验表明:所提方法能有效提高导弹领域文本嵌套实体识别的准确率和召回率,其综合指标F1值相较于基于BiLSTM-CRF的嵌套命名实体识别方法提高了13.89%。 展开更多
关键词 导弹 嵌套命名实体识别 知识抽取 机器阅读理解 语言学特征
下载PDF
基于交互式特征融合的嵌套命名实体识别 被引量:3
15
作者 廖涛 黄荣梅 +1 位作者 张顺香 段松松 《计算机工程》 CAS CSCD 北大核心 2022年第12期119-126,133,共9页
现有命名实体识别模型在字嵌入过程中多采用字符向量、字向量等不同单词表示向量的拼接或累加方式提取信息,未考虑不同单词表示特征之间的相互依赖关系,导致单词内部特征信息获取不足。提出一种基于交互式特征融合的嵌套命名实体识别模... 现有命名实体识别模型在字嵌入过程中多采用字符向量、字向量等不同单词表示向量的拼接或累加方式提取信息,未考虑不同单词表示特征之间的相互依赖关系,导致单词内部特征信息获取不足。提出一种基于交互式特征融合的嵌套命名实体识别模型,通过交互的方式构建不同特征之间的通信桥梁,以捕获多特征之间的依赖关系。采用交互机制得到包含不同单词表示信息的字嵌入向量,基于双向长短时记忆网络提取单词的表示特征,并对不同单词的表示特征进行交互,捕获特征之间的相互依赖关系。为进一步提取序列特征的上下文信息,采用基于特征交互的多头注意力机制捕获句子上下文的依赖关系。在此基础上,采用二元序列标记法过滤非实体区域,得到粗粒度候选区间,并对其进行细粒度划分以判断实体类别。实验结果表明,该模型的召回率和F1值为72.4%和71.2%,相比现有的嵌套命名实体识别模型,F1值平均提高了1.72%。 展开更多
关键词 嵌套命名实体识别 双向长短时记忆网络 特征交互 多头注意力 候选区间
下载PDF
基于分层标注的中文嵌套命名实体识别 被引量:9
16
作者 金彦亮 谢晋飞 吴迪嘉 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期270-280,共11页
中文命名实体识别在中文信息处理中扮演着重要的角色.在中文信息文本中,许多命名实体内部包含着嵌套实体.然而,已有研究大多聚焦在非嵌套实体识别,无法充分捕获嵌套实体之间的边界信息.采用分层标注方式进行嵌套命名实体识别(nested nam... 中文命名实体识别在中文信息处理中扮演着重要的角色.在中文信息文本中,许多命名实体内部包含着嵌套实体.然而,已有研究大多聚焦在非嵌套实体识别,无法充分捕获嵌套实体之间的边界信息.采用分层标注方式进行嵌套命名实体识别(nested named entity recognition,NNER),将每层的实体识别解析为一个单独的任务,并通过Gate过滤机制来促进层级之间的信息交换.利用公开的1998年《人民日报》NNER语料进行了多组实验,验证了模型的有效性.实验结果表明,在不使用外部资源词典信息的情况下,该方法在《人民日报》数据集上的F1值达到了91.41%,有效提高了中文嵌套命名实体识别的效果. 展开更多
关键词 中文信息处理 分层标注 嵌套命名实体识别 Gate过滤机制
下载PDF
实体提及的多层嵌套识别方法研究 被引量:3
17
作者 刘非凡 赵军 徐波 《中文信息学报》 CSCD 北大核心 2007年第2期14-21,共8页
实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction,ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,... 实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction,ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务:嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。 展开更多
关键词 人工智能 自然语言处理 实体提及嵌套识别 条件随机场 支持向量机
下载PDF
命名实体识别任务综述 被引量:5
18
作者 高翔 王石 +3 位作者 朱俊武 梁明轩 李阳 焦志翔 《计算机科学》 CSCD 北大核心 2023年第S01期16-23,共8页
命名实体识别作为自然语言处理中一项十分基础的任务,为其他许多下游任务的高效完成奠定了基础。其目的是从一段用自然语言描述的文本中识别出相应的实体并标注其类型,以此为其他相关任务作出数据标注的准备。首先介绍了命名实体识别任... 命名实体识别作为自然语言处理中一项十分基础的任务,为其他许多下游任务的高效完成奠定了基础。其目的是从一段用自然语言描述的文本中识别出相应的实体并标注其类型,以此为其他相关任务作出数据标注的准备。首先介绍了命名实体识别任务的发展历程以及在对应背景下相关研究用到的重点方法,包括自诞生初期用到的基于规则和字典的方法以及后期发展衍生出的基于统计学、深度学习的方法。其次总结了一些该领域比较主流的研究方向,包括低资源条件下的命名实体识别、嵌套命名实体识别以及跨语言的命名实体识别等,这些方向都是近期该任务的热门研究趋势,包含了该任务目前最为流行的研究方法。最后总结了研究中的相关经验,展望了该任务未来的发展方向及难点。 展开更多
关键词 命名实体识别 嵌套命名实体识别 深度学习 低资源 跨语言
下载PDF
深度学习中文命名实体识别研究进展 被引量:2
19
作者 李莉 奚雪峰 +2 位作者 盛胜利 崔志明 徐家保 《计算机工程与应用》 CSCD 北大核心 2023年第24期46-69,共24页
中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据... 中文命名实体识别(CNER)指识别中文文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。近年来,深度学习技术依托其端到端的方法,自动学习到更深层次和更抽象的数据特征,摆脱了人工标注的依赖,解决了高维特征空间的数据稀疏问题,从而逐渐成为中文命名实体识别方法的主流。回顾了命名实体识别的发展进程和CNER的特殊性和难点;围绕着中文命名实体识别的不同处理特点,将基于深度学习的中文命名实体识别的方法分类为扁平实体边界问题、中文嵌套命名实体识别和CNER小样本问题处理三个领域,并具体阐述这三类领域的模型、细分领域和最近的研究进展并整理了部分典型深度学习方法在相关数据集上的实验结果;再次总结了中文命名实体识别任务的常用数据集和评估方法;指出了当前中文命名实体识别技术面临的挑战和未来的研究方向。 展开更多
关键词 中文命名实体识别 深度学习 实体边界 中文嵌套命名实体识别 低资源中文命名实体识别
下载PDF
基于联合模型的中文嵌套命名实体识别 被引量:8
20
作者 尹迪 周俊生 曲维光 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第3期29-35,共7页
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的b... 中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果. 展开更多
关键词 嵌套命名实体识别 序列化标注模型 联合模型 感知器算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部