期刊文献+
共找到271篇文章
< 1 2 14 >
每页显示 20 50 100
蒙古语复数词缀-nar、-ner的词源 被引量:1
1
作者 哈斯巴特尔 《满语研究》 2009年第2期47-52,共6页
蒙古语复数词缀-nar、-ner为专门表达指人名词的复数,语义上与-uul、-l,-ud、-d相同。-nar、-ner为复合词缀,是由早期集合数词缀*-tan、*-ten加-la、-le演变而来。*-tan、*-ten+-la、-le演变为*-tala、*-tele后经过进一... 蒙古语复数词缀-nar、-ner为专门表达指人名词的复数,语义上与-uul、-l,-ud、-d相同。-nar、-ner为复合词缀,是由早期集合数词缀*-tan、*-ten加-la、-le演变而来。*-tan、*-ten+-la、-le演变为*-tala、*-tele后经过进一步语音变化演变为-nar、-ner。因此,-nar、-ner在来源上与-uul、-l(<*-tun、*-tn+-la、-le)一样,只是有了不同的语音演变。 展开更多
关键词 蒙古语 -nar -ner 词源
下载PDF
社交媒体数据中水灾事件求助信息提取模型
2
作者 孙焕良 王思懿 +1 位作者 刘俊岭 许景科 《计算机应用》 CSCD 北大核心 2024年第8期2437-2445,共9页
由于社交媒体平台上所发布的非结构化信息存在数据不一致、重要程度不同等问题,使自动准确抽取所需信息并标注受灾级别成为一个有挑战性的工作。因此,结合形式概念分析(FCA)、词共现关系和上下文语义信息构建了水灾事件知识体系。利用... 由于社交媒体平台上所发布的非结构化信息存在数据不一致、重要程度不同等问题,使自动准确抽取所需信息并标注受灾级别成为一个有挑战性的工作。因此,结合形式概念分析(FCA)、词共现关系和上下文语义信息构建了水灾事件知识体系。利用所构建的知识体系,基于TencentPretrain框架对大规模语言预训练模型(LLM)进行指令微调,构建了ChatFlowFlood信息抽取模型,可以在少量人工标记情况下,准确自动抽取被困情况、紧缺物资等信息;在信息抽取模型的基础上,通过模糊层次分析法(FAHP)和CRITIC法(CRiteria Importance Through Intercriteria Correlation)主客观结合评定求助信息的救援优先级,帮助决策者理解灾情紧急程度。实验结果表明,在中文社交媒体数据上,与ChatFlow-7B模型相比,ChatFlowFlood模型的FBERT指标提升了73.09%。 展开更多
关键词 中文社交媒体 命名实体识别 大规模语言模型 指令微调 水灾事件
下载PDF
基于字形特征的血管外科命名实体识别
3
作者 张华青 夏张涛 +1 位作者 陆晓庆 童基均 《计算机工程》 CAS CSCD 北大核心 2024年第8期13-21,共9页
电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个... 电子病历(EMR)作为医疗信息化建设的核心,蕴含着众多有价值的医疗实体,对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题,基于某三甲医院血管外科的真实临床数据,构建一个小规模的专科数据集作为实验数据集,并提出一种基于字形特征的命名实体识别模型。首先,采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量,引入汉字四角码与汉字五笔两个维度的字形信息;然后,将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取,并对输出结果进行拼接;最后,通过多头自注意力机制捕捉序列内部元素间的关系,利用条件随机场(CRF)进行标签解码。实验结果表明,所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%,均优于对比模型,具有更好的实体识别性能。 展开更多
关键词 电子病历 血管外科 命名实体识别 特征融合 深度学习
下载PDF
基于知识图谱增强的领域多模态实体识别
4
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 多模态 领域 知识图谱 跨模态特征融合 注意力机制
下载PDF
多尺寸注意力的命名实体识别方法
5
作者 唐瑞雪 秦永彬 陈艳平 《计算机科学与探索》 CSCD 北大核心 2024年第2期506-515,共10页
命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信... 命名实体识别(NER)任务的准确性将促进自然语言领域中诸多下游任务的研究。由于文本中存在大量嵌套语义,导致命名实体识别困难,成为自然语言处理中的难点。以往研究提取特征尺度单一,边界信息利用不够充分,忽略了不同尺度下的许多细节信息,从而造成实体识别错误或遗漏的情况。针对上述问题,提出一种多尺度注意力的命名实体识别方法(MSA-NER)。首先,利用BERT模型得到包含上下文信息的表示向量,并通过BiLSTM网络加强文本的上下文表示。其次,将表示向量进行枚举拼接形成跨度信息矩阵,并融合方向信息获得更丰富的交互信息。然后,利用多头注意力构建多个子空间,通过二维卷积在每个子空间下可选地聚合不同尺度的文本信息,在每个注意力层同时进行多尺度的特征融合。最后,将融合的矩阵进行跨度分类以识别命名实体。实验表明,该方法在GENIA和ACE2005英文数据集上F1分别达到81.7%和86.8%,与现有主流模型相比有更好的识别效果。 展开更多
关键词 命名实体识别(NER) 嵌套语义 多尺度注意力 卷积神经网络 子空间
下载PDF
内蒙古阿拉善右旗拜兴图地区土壤地球化学异常特征及找矿预测
6
作者 李杰伟 高文 +6 位作者 罗先熔 李超 张文博 商振城 刘攀峰 邱宏蕊 刘秀娟 《桂林理工大学学报》 CAS 北大核心 2024年第1期29-42,共14页
为优选阿拉善右旗拜兴图地区找矿预测靶区,在查明该区成矿地质条件的基础上开展1∶1万土壤地球化学测量。采用元素变异系数、ILR变换、ILR-PCA多元统计分析法对研究区Au、Ag、Co、Cu、Pb、Zn和As等7种元素进行分析,结果表明:(1)成矿元... 为优选阿拉善右旗拜兴图地区找矿预测靶区,在查明该区成矿地质条件的基础上开展1∶1万土壤地球化学测量。采用元素变异系数、ILR变换、ILR-PCA多元统计分析法对研究区Au、Ag、Co、Cu、Pb、Zn和As等7种元素进行分析,结果表明:(1)成矿元素主要赋存于断裂与矿化蚀变带交汇部位,Au、Ag呈现强分异富集特征,成矿潜力大;Pb、Zn、As、Co、Cu呈现低分异富集特征,成矿潜力较小。(2)ILR变换可消除原始数据的闭合效应,使元素呈现标准正态分布;ILR-PCA第一主成分能最大限度提取原始数据的综合信息,即PC1正端载荷(Au-Ag-As)为成矿指示元素,元素异常强度和形态受断裂与矿化蚀变带控制,负端载荷(Co-Cu-Pb-Zn)为多期次岩浆热液活动引起。(3)对Ⅰ号找矿靶区进行工程验证,查明靶区数条金(银)矿体,金、银含量均达到或超过最低工业品位,表明拜兴图地区具有较大的金、银找矿潜力。 展开更多
关键词 土壤地球化学 ILR变换 ILR-PCA 找矿预测 拜兴图 阿拉善右旗 内蒙古
下载PDF
教育领域下多维度特征命名实体识别方法
7
作者 任义 苏博 袁帅 《计算机工程》 CAS CSCD 北大核心 2024年第10期110-118,共9页
信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学... 信息技术的发展与进步促使“互联网+教育”成为目前教育领域的研究热点,教育教学的各个环节都在向智能化的方向发展。中学数学的命名实体识别(NER)任务的研究,可为后续构建中学数学学科知识图谱及自动问答等任务奠定基础,进而满足中学生个性化知识获取的需求,助力新型智能化教育体系的构建。目前中学数学知识语义复杂,其NER和研究数据较少,且在当前主流模型特征提取任务中容易忽略掉部分局部特征。为解决该领域的实体识别困难问题,以自建的中学数学知识语料库为研究对象,提出一种融合多头注意力的多维度特征NER方法。该方法首先采用BERT进行文本表征预训练得到词向量,接着引入对抗训练对每个嵌入向量进行扰动,将得到的对抗样本和嵌入向量传送到多维度特征提取层进行特征提取,再将输出的特征进行拼接,通过多头注意力机制进行动态融合,最终经过条件随机场(CRF)修正后输出。实验结果表明,该方法在自建Educ数据集上的识别准确率、召回率以及F1值分别达到96.68%、97.71%和97.19%,证明了该方法在中学数学知识实体识别上的有效性。 展开更多
关键词 命名实体识别 教育领域 对抗训练 多维度特征提取 多头注意力机制
下载PDF
基于深度学习的网络安全命名实体识别方法 被引量:1
8
作者 李大岭 张浩军 +1 位作者 王家慧 李世龙 《无线电工程》 2024年第3期644-652,共9页
针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进... 针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。 展开更多
关键词 网络安全 中文命名实体识别 预训练模型 词向量融合 条件随机场
下载PDF
融合多粒度语言知识与层级信息的中文命名实体识别模型
9
作者 于右任 张仰森 +1 位作者 蒋玉茹 黄改娟 《计算机应用》 CSCD 北大核心 2024年第6期1706-1712,共7页
针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文... 针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文本的细粒度和粗粒度语言信息,从而更好地表征语料;其次,使用ON-LSTM(Ordered Neurons Long Short-Term Memory network)模型提取层级信息,利用文本本身的层级结构信息增强编码间的时序关系;最后,在模型的解码端结合文本的分词信息,并将实体识别问题转化为表格填充问题,以更好地解决实体重叠问题并获得更准确的实体识别结果。同时,为解决当前模型在不同领域中的迁移能力较差的问题,提出通用实体识别的理念,通过筛选多领域的通用实体类型,构建一套提升模型在多领域中的泛化能力的通用NER数据集MDNER(Multi-Domain NER dataset)。为验证所提模型的效果,在数据集Resume、Weibo、MSRA上进行实验,与MECT(Multi-metadata Embedding based Cross-Transformer)模型相比,F1值分别提高了0.94、4.95和1.58个百分点。为了验证所提模型在多领域中的实体识别效果,在MDNER上进行实验,F1值达到了95.29%。实验结果表明,多粒度语言知识预训练、文本层级结构信息提取和高效指针解码器对模型的性能提升至关重要。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 高效指针 通用实体
下载PDF
融合先验知识和字形特征的中文命名实体识别
10
作者 董永峰 白佳明 +1 位作者 王利琴 王旭 《计算机应用》 CSCD 北大核心 2024年第3期702-708,共7页
针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入... 针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。 展开更多
关键词 命名实体识别 注意力机制 卷积神经网络 双向长短时记忆 条件随机场
下载PDF
基于预训练模型的医药说明书实体抽取方法研究
11
作者 陈仲永 黄雍圣 +1 位作者 张旻 姜明 《计算机科学与探索》 CSCD 北大核心 2024年第7期1911-1922,共12页
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小... 药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。 展开更多
关键词 命名实体识别 预训练模型 医疗实体抽取 TRANSFORMER
下载PDF
k-best维特比解耦合知识蒸馏的命名实体识别模型
12
作者 赵红磊 唐焕玲 +2 位作者 张玉 孙雪源 鲁明羽 《计算机科学与探索》 CSCD 北大核心 2024年第3期780-794,共15页
为提升命名实体识别(NER)模型的性能,可采用知识蒸馏方法,但是传统知识蒸馏损失函数因内部存在的耦合关系会导致蒸馏效果较差。为了解除耦合关系,有效提升输出层特征知识蒸馏的效果,提出一种结合k-best维特比解码的解耦合知识蒸馏方法(k... 为提升命名实体识别(NER)模型的性能,可采用知识蒸馏方法,但是传统知识蒸馏损失函数因内部存在的耦合关系会导致蒸馏效果较差。为了解除耦合关系,有效提升输出层特征知识蒸馏的效果,提出一种结合k-best维特比解码的解耦合知识蒸馏方法(kvDKD),该方法利用k-best维特比算法提高计算效率,能够有效提升模型性能。另外,基于深度学习的命名实体识别在数据增强时易引入噪声,因此提出了融合数据筛选和实体再平衡算法的数据增强方法,旨在减少因原数据集引入噪声和增强数据错误标注的问题,提高数据集质量,减少过度拟合。最后在上述方法的基础上,提出了一种新的命名实体识别模型NER-kvDKD。在MSRA、Resume、Weibo、CLUENER和CoNLL-2003数据集上的对比实验结果表明,该方法能够提高模型的泛化能力,同时也有效提高了学生模型性能。 展开更多
关键词 命名实体识别(NER) 知识蒸馏 k-best维特比解码 数据增强
下载PDF
前缀调优的少样本命名实体识别
13
作者 吕海啸 李益红 周晓谊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2180-2189,共10页
少样本命名实体识别通常使用基于相似性的度量,为了能够充分利用模型参数中的知识转移,提出一种前缀调优的少样本命名实体识别方法(P-NER)。将输入文本的特征向量放入嵌入模块进行特征提取;把前缀提示的向量参数拼接到编码层模型的前端... 少样本命名实体识别通常使用基于相似性的度量,为了能够充分利用模型参数中的知识转移,提出一种前缀调优的少样本命名实体识别方法(P-NER)。将输入文本的特征向量放入嵌入模块进行特征提取;把前缀提示的向量参数拼接到编码层模型的前端,并将编码层模型参数进行固定;对编码层得到的结果进行交叉熵模型的解码,并对每个训练样本采样两个子模型,通过最小化两个子模型之间相对熵的方式达到对模型预测进行正则化的目的;通过验证输出概率和真实标签概率来衡量模型对每个词的标签预测与实际标签的一致程度并输出分类结果。实验结果表明在CoNLL2003数据集上,该方法的域内少样本实体识别的平均F1得分为84.92%,在跨领域少样本实体识别的MIT Movie、MIT Restaurant和ATIS三个数据集中均领先其他基线方法的结果。因此,该方法可在只需要调节以往微调方法的2.9%参数的情况下,显著提高少样本命名实体识别的效果。 展开更多
关键词 命名实体识别(NER) 少样本学习 提示学习
下载PDF
基于深度语义分析的警务卷宗知识抽取
14
作者 马健伟 王铁鑫 +3 位作者 江宏 陈涛 张超 李博涵 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1325-1335,共11页
卷宗作为公安机关办案、结案的主要记录,包含大量关键的警务信息.面向警务卷宗的信息抽取是分析案情、挖掘犯罪趋势、提高治安管理水平的重要手段.卷宗类文本多由基层警务人员采用自然语言书写,关键信息抽取难度大.传统的警务卷宗信息抽... 卷宗作为公安机关办案、结案的主要记录,包含大量关键的警务信息.面向警务卷宗的信息抽取是分析案情、挖掘犯罪趋势、提高治安管理水平的重要手段.卷宗类文本多由基层警务人员采用自然语言书写,关键信息抽取难度大.传统的警务卷宗信息抽取,多依赖人工及预定义模板,效率低且通用性差.针对以上问题,参考卷宗的警务特征,提出了一种基于深度语义分析的卷宗知识抽取方法.该方法包含命名实体识别与关系抽取2个核心内容.提出的命名实体识别方法,融合了汉字结构特征和字形特征;提出的关系抽取方法建立在实体识别的基础上,实现基于触发规则和触发词的2种抽取模式.在公开的微博数据集、项目合作方**市**分局的真实卷宗集上,提出的命名实体识别方法对比基线方法,在实体识别精确率及召回率上综合表现优异;自动抽取的关系也得到**分局的认可.相关信息系统已在**分局部署使用. 展开更多
关键词 智慧警务 警务卷宗 知识抽取 命名实体识别 关系抽取
下载PDF
基于大语言模型的命名实体识别
15
作者 叶名玮 汤嘉 +1 位作者 郭燕 吴桂兴 《计算机系统应用》 2024年第8期257-263,共7页
虽然以ChatGPT为代表的自然语言生成(NLG)大语言模型在自然语言处理中的大多数任务中取得了良好的表现,但其在序列识别任务,如命名实体识别任务中的表现暂且不如基于BERT的深度学习模型.针对这一点,本文探究性的通过将现有的中文命名实... 虽然以ChatGPT为代表的自然语言生成(NLG)大语言模型在自然语言处理中的大多数任务中取得了良好的表现,但其在序列识别任务,如命名实体识别任务中的表现暂且不如基于BERT的深度学习模型.针对这一点,本文探究性的通过将现有的中文命名实体识别问题改造成机器阅读理解问题,提出并设计了基于情境学习和模型微调的新方法,使NLG语言模型在识别命名实体达到了更好的效果,并且该方法不同于其他方法需要改变基层模型的预训练参数.同时,由于命名实体是模型生成的结果而不是对原始数据的分类,不存在边界问题.为了验证新框架在命名实体识别任务上的有效性,本文在多个中文命名实体识别数据集上进行了实验.其中,在Resume和Weibo数据集上的F1分数分别达到了96.04%和67.87%,相较于SOTA模型分别提高了0.4和2.7个百分点,从而验证了新框架能有效利用NLG语言模型在文本生成上的优势完成命名实体识别任务. 展开更多
关键词 命名实体识别 模型微调 机器阅读理解 情境学习 大语言模型
下载PDF
基于标签语义信息感知的少样本命名实体识别方法
16
作者 张越 王长征 +4 位作者 苏雪峰 闫智超 张广军 邵文远 李茹 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第3期413-421,共9页
在少样本命名实体识别方法中,目前广泛应用的方法是基于原型网络的两阶段模型。但是,该方法未充分利用实体标签中的语义信息,且在距离计算中过度依赖实体类型原型向量,导致模型泛化能力差。针对这些问题,提出一种基于标签语义信息感知... 在少样本命名实体识别方法中,目前广泛应用的方法是基于原型网络的两阶段模型。但是,该方法未充分利用实体标签中的语义信息,且在距离计算中过度依赖实体类型原型向量,导致模型泛化能力差。针对这些问题,提出一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种先进行实体跨度检测,再判断实体类型的两阶段方法。在构建实体类型原型向量时,将对应实体类型包含的语义信息考虑在内,通过维度转换层将其与原型向量相融合。在对新样本进行实体识别时,将实体类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距离对其进行分类。在多个数据集上的实验结果证明,该模型的性能比以往的模型有较大的提升。 展开更多
关键词 少样本命名实体识别 标签语义信息感知 实体类型三元组 原型网络
下载PDF
基于ALBERT的中文简历命名实体识别
17
作者 余丹丹 黄洁 +1 位作者 党同心 张克 《计算机工程与设计》 北大核心 2024年第1期261-267,共7页
现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进... 现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进行词嵌入,获取动态词向量,解决一词多义的问题;使用BiLSTM获取上下文结构特征,深层次挖掘语义关系;将拼接后的向量输入到CRF层进行维特比解码,学习标签间约束关系,输出正确标签。实验结果表明,该方法在Resume电子简历数据集中取得了94.86%的F1值。 展开更多
关键词 电子简历 命名实体识别 预训练语言模型 双向长短时记忆网络 条件随机场 神经网络 深度学习
下载PDF
为上下文显式独立建模的中文实体识别方法
18
作者 陈点 曹逸轩 罗平 《高技术通讯》 CAS 北大核心 2024年第8期787-797,共11页
现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模... 现有中文命名实体识别(NER)模型在公开数据集上的表现相对成熟,但有研究指出,模型过度依赖实体文本的字面特征,而上下文对实体识别的影响却未得到重视。现有的模型在简单的泛化测试中表现较差,因此本文提出显式地为上下文独立建模,令模型对上下文和实体的字面信息进行区分。为此,也提出了相应的数据增强方法用于训练模型中的上下文模块、实体字面模块和综合模块。实验结果表明,本文提出的方法在不损失测试集识别效果的情况下,明显改善了模型在不变性测试中的表现,较基准模型其失败率降低了2.3%。 展开更多
关键词 自然语言处理 中文命名实体识别(NER) 上下文独立建模 数据增强
下载PDF
面向不平衡数据的机械设备故障命名实体识别
19
作者 党小超 刘涧 +2 位作者 董晓辉 祝忠彦 李芬芳 《计算机工程》 CAS CSCD 北大核心 2024年第9期104-112,共9页
命名实体识别作为构建知识图谱的基础任务,其识别效果直接影响知识图谱的质量。在实际生产中,机械故障数据通常包含大量的领域专业词汇,同时实体类型普遍存在分布不平衡的问题,这对准确识别故障实体构成了挑战。通用领域实体识别方法在... 命名实体识别作为构建知识图谱的基础任务,其识别效果直接影响知识图谱的质量。在实际生产中,机械故障数据通常包含大量的领域专业词汇,同时实体类型普遍存在分布不平衡的问题,这对准确识别故障实体构成了挑战。通用领域实体识别方法在这一领域效果欠佳,从而降低了知识图谱的质量。为应对上述问题,提出一种融合焦点损失(Focal Loss)函数和专业词典的实体识别方法。该方法使用Focal Loss函数应对实体类型不平衡问题,通过引入平衡因子和调制系数,改进传统的交叉熵损失函数,提升实体识别效果,同时将领域专业词汇嵌入到模型中,进一步提高实体识别性能,这一词典包含机械故障的领域术语,有助于模型更准确地识别机械设备故障命名实体。在自建的矿井提升机实验数据集上进行广泛实验验证,结果证明,融入Focal Loss后模型的F1值比主流模型BERT-BiLSTM-CRF提高了5.57个百分点,相比用于解决数据不平衡的典型方法SMOTE效果更优,在此基础上,通过嵌入领域词典,模型的F1值得到进一步提升,达到89.13%。 展开更多
关键词 命名实体识别 不平衡数据 焦点损失函数 机械设备故障 双向长短期记忆网络 条件随机场
下载PDF
东北亚舆情文本细粒度命名实体识别方法研究
20
作者 隗昊 刁宏悦 +1 位作者 孔亮宸 邓耀臣 《计算机工程》 CAS CSCD 北大核心 2024年第5期354-362,共9页
东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。... 东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。命名实体识别是构建知识图谱的关键技术和核心任务,受到研究者广泛的关注。以社交媒体、门户网站与东北亚地区相关的实时热点舆情文本作为数据源,充分考虑到东北亚地区的区域特点和地缘结构,建立包含10个大类、35个子类的细粒度命名实体识别数据集,并提出基于预训练语言模型Ro BERTa和多层残差BiL STM-CRF架构(Ro BERTa-Res BiLSTM-CRF)的舆情实体识别模型,同时在模型完成标签预测后设计基于规则模板的后处理策略,以提高整体的实体识别性能。实验结果表明,所提出的舆情命名实体识别模型的性能优于主流的传统神经网络模型,验证了该方法的有效性。 展开更多
关键词 细粒度 命名实体识别 舆情文本 深度学习 预训练语言模型
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部