期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
基于预训练模型的医药说明书实体抽取方法研究
1
作者 陈仲永 黄雍圣 +1 位作者 张旻 姜明 《计算机科学与探索》 CSCD 北大核心 2024年第7期1911-1922,共12页
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小... 药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。 展开更多
关键词 命名实体识别 预训练模型 医疗实体抽取 TRANSFORMER
下载PDF
基于ALBERT的中文简历命名实体识别
2
作者 余丹丹 黄洁 +1 位作者 党同心 张克 《计算机工程与设计》 北大核心 2024年第1期261-267,共7页
现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进... 现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进行词嵌入,获取动态词向量,解决一词多义的问题;使用BiLSTM获取上下文结构特征,深层次挖掘语义关系;将拼接后的向量输入到CRF层进行维特比解码,学习标签间约束关系,输出正确标签。实验结果表明,该方法在Resume电子简历数据集中取得了94.86%的F1值。 展开更多
关键词 电子简历 命名实体识别 预训练语言模型 双向长短时记忆网络 条件随机场 神经网络 深度学习
下载PDF
基于深度学习的网络安全命名实体识别方法
3
作者 李大岭 张浩军 +1 位作者 王家慧 李世龙 《无线电工程》 2024年第3期644-652,共9页
针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进... 针对中文网络安全领域缺乏公开数据集和有效的命名实体识别(Named Entity Recognition,NER)方法,提出一种融合汉字多源信息的网络安全NER方法。通过构建数据集中所有字符的偏旁和字频向量表,增强了中文字向量的特征表达能力,嵌入到改进的词汇融合模型中进行字向量与词向量的融合,输入到条件随机场(Conditional Random Fields,CRF)进行解码。实验结果表明,该方法在保持较快解码速度和占用较低计算机资源的情况下,在网络安全数据集上,其准确率、召回率和F1值分别为0.8649、0.8402和0.8523,均优于现有模型,能够为后续网络安全知识图谱的构建提供支撑。 展开更多
关键词 网络安全 中文命名实体识别 预训练模型 词向量融合 条件随机场
下载PDF
一种集成NER的文本分类特征选择方法 被引量:2
4
作者 施德明 林洋港 陈恩红 《计算机工程与科学》 CSCD 2007年第11期152-156,共5页
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人... 文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。 展开更多
关键词 命名实体识别 命名实体 特征选择 文本分类 隐马尔可夫模型
下载PDF
东北亚舆情文本细粒度命名实体识别方法研究
5
作者 隗昊 刁宏悦 +1 位作者 孔亮宸 邓耀臣 《计算机工程》 CAS CSCD 北大核心 2024年第5期354-362,共9页
东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。... 东北亚地区的国际形势变化与中国的发展密切相关,面向该地区构建舆情信息知识图谱可以有效地监测舆情热点,这不仅能够引导社会舆论健康发展及协助政府决策,而且对防范政治营销、提升国家语言能力、构建和谐稳定国际关系具有重大价值。命名实体识别是构建知识图谱的关键技术和核心任务,受到研究者广泛的关注。以社交媒体、门户网站与东北亚地区相关的实时热点舆情文本作为数据源,充分考虑到东北亚地区的区域特点和地缘结构,建立包含10个大类、35个子类的细粒度命名实体识别数据集,并提出基于预训练语言模型Ro BERTa和多层残差BiL STM-CRF架构(Ro BERTa-Res BiLSTM-CRF)的舆情实体识别模型,同时在模型完成标签预测后设计基于规则模板的后处理策略,以提高整体的实体识别性能。实验结果表明,所提出的舆情命名实体识别模型的性能优于主流的传统神经网络模型,验证了该方法的有效性。 展开更多
关键词 细粒度 命名实体识别 舆情文本 深度学习 预训练语言模型
下载PDF
基于注意力机制特征融合的中文命名实体识别 被引量:4
6
作者 廖列法 谢树松 《计算机工程》 CAS CSCD 北大核心 2023年第4期256-262,共7页
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局... 命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。 展开更多
关键词 注意力机制 Transformer编码器 特征融合 中文命名实体识别 预训练模型
下载PDF
基于字词融合与对抗训练的行业人物实体识别 被引量:3
7
作者 朱红 牛浩然 朱彤 《计算机工程》 CAS CSCD 北大核心 2023年第5期56-62,共7页
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不... 行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。 展开更多
关键词 命名实体识别 行业人物 字词融合 对抗训练 预训练模型
下载PDF
注入图情领域知识的命名实体识别模型
8
作者 王娟 王志红 曹树金 《图书馆论坛》 北大核心 2023年第7期15-25,共11页
命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,... 命名实体分类和识别是自然语言处理中的关键任务,其识别效果将会影响许多下游任务的性能。文章基于现有知识图谱,提出图情领域九大类实体,构建适用于图情领域实体识别的LISERNIE+BiGRU+CRF模型。其中,LISERNIE模型的训练以ERNIE为基础,增加了注入图情领域知识的预训练阶段训练。通过开展广泛的实验,发现LISERNIE+BiGRU+CRF模型能有效识别出命名实体,且在小规模标注数据集上具有明显的性能优势;当应用到后续的开放域关系抽取实验时,其准确率远高于CORE系统,可为进一步构建知识图谱、问答系统、机器阅读等提供模型和数据支撑。 展开更多
关键词 命名实体识别 知识图谱 预训练语言模型 领域知识
下载PDF
基于门控空洞卷积特征融合的中文命名实体识别 被引量:3
9
作者 杨长沛 廖列法 《计算机工程》 CAS CSCD 北大核心 2023年第8期85-95,共11页
在中文命名实体识别任务中,具有循环结构的长短时记忆网络模型通过捕捉时序特征解决长距离依赖问题,但其特征捕捉方式单一,信息获取能力有限。卷积神经网络通过使用多层卷积并行处理文本,能够提高模型运算速度,捕捉文本的空间特征,但简... 在中文命名实体识别任务中,具有循环结构的长短时记忆网络模型通过捕捉时序特征解决长距离依赖问题,但其特征捕捉方式单一,信息获取能力有限。卷积神经网络通过使用多层卷积并行处理文本,能够提高模型运算速度,捕捉文本的空间特征,但简单地堆叠多个卷积层容易导致梯度消失。为同时获得多维度的文本特征且改善梯度消失问题,提出一种基于RoBERTa-wwm-DGCNN-BiLSTM-BMHA-CRF的中文命名实体识别模型,通过基于全词遮蔽技术的预训练语言模型RoBERTa-wwm把文本表征为字符级嵌入向量,捕捉深度上下文语义信息,并采用门控机制和残差结构对空洞卷积神经网络进行改进以降低梯度消失的风险。使用双向长短时记忆网络和门控空洞卷积神经网络分别捕捉文本的时序特征和空间特征,采用双线性多头注意力机制对多维度的文本特征进行动态融合,最后使用条件随机场对结果进行约束,获得最佳标记序列。实验结果表明,所提模型在Resume、Weibo和MSRA数据集上的F1值分别为97.20%、74.28%和95.74%,证明了该模型在中文命名实体识别中的有效性。 展开更多
关键词 命名实体识别 RoBERTa-wwm模型 空洞卷积 注意力机制 特征融合
下载PDF
基于多维大数据预测的应急灾备统筹救助系统研究 被引量:2
10
作者 李攀 周兆军 刘庆杰 《计算机应用与软件》 北大核心 2023年第3期122-129,共8页
应急灾备统筹救助系统是基于应急管理部门的多维度大数据汇总、协同分析、快速决策的统筹规划管理平台。在面对地震和次生灾害等突发灾情时,通过大数据分析统计,进行救灾物资调配、人员工作协调、应急事件判断,并根据救灾物资需求的紧... 应急灾备统筹救助系统是基于应急管理部门的多维度大数据汇总、协同分析、快速决策的统筹规划管理平台。在面对地震和次生灾害等突发灾情时,通过大数据分析统计,进行救灾物资调配、人员工作协调、应急事件判断,并根据救灾物资需求的紧急程度及运输目标的最短路径分析,计算最高效的物资配送方法,提高运能及运输效率。通过NER模型,提取汇报信息关键字,迅速判断事件紧急程度,方便快速做出应急响应。该系统通过前后端分离的分布式架构,可以快速融合各行业数据,利用扩展算法接口,对各地区不同灾情进行预测和统计分析。 展开更多
关键词 应急灾备统筹救助系统 大数据分析 ner模型
下载PDF
基于递进式卷积网络的农业命名实体识别方法
11
作者 计洁 金洲 +2 位作者 王儒敬 刘海燕 李志远 《智慧农业(中英文)》 CSCD 2023年第1期122-131,共10页
目前基于预训练语言模型(Pre-trained Language Model,PLM)的命名实体识别的研究在面对农业领域存在的实体命名方式繁杂、实体边界模糊等问题时,仅使用PLM最后一层表示输出,且均从外部引入知识或操作对实体表示进行增强,忽视内部各层本... 目前基于预训练语言模型(Pre-trained Language Model,PLM)的命名实体识别的研究在面对农业领域存在的实体命名方式繁杂、实体边界模糊等问题时,仅使用PLM最后一层表示输出,且均从外部引入知识或操作对实体表示进行增强,忽视内部各层本身蕴含语言不同层次的丰富信息。为解决上述问题,提出一种基于递进式卷积网络的命名实体识别方法。该方法首先存储自然句子,通过PLM后得到的每层输出表示;其次以递进式卷积作为全层信息的特征提取手段,对储存的模型中间层输出表示依次卷积。模型将注重全层信息,包括被忽略的浅层输出,而有研究表明靠近输入的模型层输出的句子嵌入包含更多的诸如短语、词组等粗粒度信息,对于边界模糊的农业命名实体识别,更关键的词组界定信息或许就隐含在这些被忽略的浅层嵌入中,可为农业领域存在的命名实体识别问题提供帮助。无需外部信息的引入,充分利用已使用的计算力得到的结果就能增强句子的表示嵌入;最终通过条件随机场(Conditional Random Field,CRF)模型生成全局最优序列。在构建的包含农作物品种、病害、虫害和农药4类农业实体的农业数据集上,所提方法的综合性指标F1值相较于基于Transformer的双向编码表征模型(Bidirectional Encoder Representation from Transformers, BERT)提升3.61%,在公开数据集上也有较好表现,其中在数据集MSRA上F1值提升至94.96%,说明基于递进式的卷积网络能够增强模型对自然语言的表示能力,在命名实体识别任务上具有优势。 展开更多
关键词 农业命名实体识别 预训练语言模型 卷积网络 表示聚合 深度学习
下载PDF
面向朝鲜语命名实体识别的多粒度融合方法
12
作者 黄政豪 金光洙 高君龙 《中文信息学报》 CSCD 北大核心 2023年第8期66-74,共9页
该文从朝鲜语语法和构成特点出发,研究在音素、音节和词素三个不同粒度下朝鲜语实体的有效表征,提出一种基于多粒度融合的朝鲜语命名实体识别方法。该方法从不同粒度的联系和差异两方面进行多粒度特征的融合。首先,对朝鲜语的音素特征... 该文从朝鲜语语法和构成特点出发,研究在音素、音节和词素三个不同粒度下朝鲜语实体的有效表征,提出一种基于多粒度融合的朝鲜语命名实体识别方法。该方法从不同粒度的联系和差异两方面进行多粒度特征的融合。首先,对朝鲜语的音素特征进行编码,并基于CNN架构构建将音素粒度与音节粒度融合的模型,获得音节向量。其次,使用fastText预训练模型对得到的音节向量进行编码,获取其顺序特征。同时,使用KLUE-BERT预训练模型对词素粒度特征进行建模,得到词素向量。最后,将之前得到的音节向量与词素向量进行融合,形成包含多粒度特征的文本表征,并利用基于Transformer的NER模型TENER完成朝鲜语命名实体识别。为了验证所提出方法的有效性,该文在Klpexpo2016和KLUE-NER语料库上进行了实验,结果表明所提出的不同粒度表征及融合方法能够很好地提取出朝鲜语的实体特征,取得了很好的效果,其中在Klpexpo2016语料库中的F_(1)值为89.45%,KLUE-NER语料库中的F_(1)值为88.82%。 展开更多
关键词 朝鲜语 命名实体识别 多粒度融合 预训练模型
下载PDF
基于知识增强的中文电子病历命名实体识别
13
作者 李宛泽 宋波 齐岳山 《计算机系统应用》 2023年第12期112-119,共8页
针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本... 针对中文电子病历中医疗嵌套实体难以处理的问题,本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP.RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示,更适用于中文文本.首先结合知识图谱,使模型学习到了大量的医疗实体名词,进一步提高模型对电子病历实体识别的准确性.然后通过BiLSTM对电子病历输入序列编码,能够更好捕获病历的中上下语义信息.最后利用全局指针网络模型EGP(efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体,更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题.在CBLUE中的4个数据集上本文方法均取得了更好的识别效果,证明了ERBEGP模型的有效性. 展开更多
关键词 中文电子病历 命名实体识别 知识增强 嵌套实体 全局指针网络模型 深度学习
下载PDF
命名实体识别研究 被引量:65
14
作者 张晓艳 王挺 陈火旺 《计算机科学》 CSCD 北大核心 2005年第4期44-48,共5页
命名实体识别是文本信息处理的重要基础,已经逐步成为自然语言处理的一项关键技术。其基于规则、统计、机器学习的研究方法及成果,都推动了自然语言处理研究的发展,促进了自然语言研究与应用的紧密结合。本文回顾了命名实体识别技术的... 命名实体识别是文本信息处理的重要基础,已经逐步成为自然语言处理的一项关键技术。其基于规则、统计、机器学习的研究方法及成果,都推动了自然语言处理研究的发展,促进了自然语言研究与应用的紧密结合。本文回顾了命名实体识别技术的发展过程,分析了主要的方法和技术,并展望了未来的发展趋势。 展开更多
关键词 命名实体 自然语言处理 文本信息处理 关键技术 基于规则 研究方法 机器学习 紧密结合 发展过程 识别技术 发展趋势
下载PDF
基于BERT的电机领域中文命名实体识别方法 被引量:15
15
作者 顾亦然 霍建霖 +2 位作者 杨海根 卢逸飞 郭玉雯 《计算机工程》 CAS CSCD 北大核心 2021年第8期78-83,92,共7页
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通... 针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于Bi LSTM-CRF、Bi LSTM-CNN和Bi GRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。 展开更多
关键词 命名实体识别 BERT预训练语言模型 电机领域 深度学习 迁移学习
下载PDF
基于ALBERT-BGRU-CRF的中文命名实体识别方法 被引量:9
16
作者 李军怀 陈苗苗 +2 位作者 王怀军 崔颖安 张爱华 《计算机工程》 CAS CSCD 北大核心 2022年第6期89-94,106,共7页
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词... 命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。 展开更多
关键词 命名实体识别 预训练语言模型 双向门控循环单元 条件随机场 词向量 深度学习
下载PDF
基于最大熵的汉语人名地名识别方法研究 被引量:26
17
作者 钱晶 张杰 张涛 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1761-1765,共5页
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识... 构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析. 展开更多
关键词 最大熵模型 专有名词识别 特征提取 语言学规则
下载PDF
结合五笔字形与上下文相关字向量的命名实体识别 被引量:7
18
作者 张栋 王铭涛 陈文亮 《计算机工程》 CAS CSCD 北大核心 2021年第3期94-101,共8页
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,... 命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。 展开更多
关键词 语言模型 命名实体识别 五笔字形 上下文相关字向量 无标注语料
下载PDF
基于BERT的中文多关系抽取方法研究 被引量:8
19
作者 黄梅根 刘佳乐 刘川 《计算机工程与应用》 CSCD 北大核心 2021年第21期234-240,共7页
构建三元组时在文本句子中抽取多个三元组的研究较少,且大多基于英文语境,为此提出了一种基于BERT的中文多关系抽取模型BCMRE,它由关系分类与元素抽取两个任务模型串联组成。BCMRE通过关系分类任务预测出可能包含的关系,将预测关系编码... 构建三元组时在文本句子中抽取多个三元组的研究较少,且大多基于英文语境,为此提出了一种基于BERT的中文多关系抽取模型BCMRE,它由关系分类与元素抽取两个任务模型串联组成。BCMRE通过关系分类任务预测出可能包含的关系,将预测关系编码融合到词向量中,对每一种关系复制出一个实例,再输入到元素抽取任务通过命名实体识别预测三元组。BCMRE针对两项任务的特点加入不同前置模型;设计词向量优化BERT处理中文时以字为单位的缺点;设计不同的损失函数使模型效果更好;利用BERT的多头与自注意力机制充分提取特征完成三元组的抽取。BCMRE通过实验与其他模型,以及更换不同的前置模型进行对比,在F1的评估下取得了相对较好的结果,证明了模型可以有效性提高抽取多关系三元组的效果。 展开更多
关键词 命名实体识别 关系抽取 前置模型 分类 串联任务 BERT模型
下载PDF
医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别 被引量:1
20
作者 徐璐璐 杨嘉乐 康乐乐 《现代情报》 CSSCI 2022年第10期163-176,共14页
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展... [目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。 展开更多
关键词 医学信息 人工智能技术 命名实体 主题漂移 BERT模型 双向长短期记忆网络 条件随机场 注意力机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部