期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究 被引量:2
1
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短记忆网络 条件随机
下载PDF
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别 被引量:4
2
作者 高国忠 李宇 +1 位作者 华远鹏 吴文旷 《长江大学学报(自然科学版)》 2024年第1期57-65,共9页
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from... 针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。 展开更多
关键词 油气领域 命名实体识别 BERT 双向长短记忆网络 条件随机 BERT-bilstm-crf模型
下载PDF
基于增强优化预训练语言模型的电力数据实体识别方法 被引量:1
3
作者 田雪涵 董坤 +1 位作者 赵剑锋 郭希瑞 《智慧电力》 北大核心 2024年第6期100-107,共8页
知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原... 知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原始数据集,采用增强优化预训练语言模型(RoBERTa)进行动态语义编码,利用双向长短期记忆网络(BiLSTM)和条件随机场(CRF)提取特征并优化标签。实验结果表明,该实体识别方法比传统基于深度学习的实体识别方法的平均数指标F1分数高2.17%,证实其对构建电力数据知识图谱的识别效果。 展开更多
关键词 知识图谱 实体识别 数据增强 预训练语言模型 双向长短记忆网络 条件随机
下载PDF
融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型 被引量:1
4
作者 刘彬 肖晓霞 +3 位作者 邹北骥 周展 郑立瑞 谭建聪 《医学信息学杂志》 CAS 2023年第6期48-53,共6页
目的/意义研究提取中医医案中医疗术语的方法,实现医案自动结构化,为医案知识发现提供结构化数据。方法/过程提出一种BERT结合长短期记忆人工神经网络、条件随机场和部首特征的深度学习命名实体识别模型,在BERT词向量中嵌入汉字部首,采... 目的/意义研究提取中医医案中医疗术语的方法,实现医案自动结构化,为医案知识发现提供结构化数据。方法/过程提出一种BERT结合长短期记忆人工神经网络、条件随机场和部首特征的深度学习命名实体识别模型,在BERT词向量中嵌入汉字部首,采用双向长短期记忆人工神经网络提取实体特征,使用条件随机场进行序列预测。将人工标注的400份共计5万余字的医案按照3∶1划分为训练集和测试集,使用该模型识别中医医案中的身体部位、药物、症状、疾病4类命名实体。结果/结论该模型在测试集F 1值为84.81%,优于其他未嵌入部首的模型,表明该模型能够更有效地识别中医医案中的命名实体,更好地结构化医案。 展开更多
关键词 实体识别 部首特征 BERT模型 双向长短记忆模型 条件随机 自然语言处理
下载PDF
面向机加工艺规程文本的实体识别模型
5
作者 董含笑 李豫虎 +1 位作者 乔立红 黄志成 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第2期313-320,共8页
为实现非结构化工艺规程文本中关键信息的高效识别,建立一种基于机加工领域词典和神经网络的命名实体识别模型.首先,结合机加工领域词典与jieba分词技术进行数据集的自动标注,并在对工艺参数信息进行标注的过程中将数字和标志字母划分... 为实现非结构化工艺规程文本中关键信息的高效识别,建立一种基于机加工领域词典和神经网络的命名实体识别模型.首先,结合机加工领域词典与jieba分词技术进行数据集的自动标注,并在对工艺参数信息进行标注的过程中将数字和标志字母划分为一个分词单位以增强后续特征提取效果;其次,在word2vec词嵌入的基础上,采用双向长短时记忆网络对文本进行特征提取;最后,采用条件随机场综合上下文逻辑以提高关键工艺信息的识别准确率.在包含431条工步内容的数据集上,对所提模型的识别效果进行实验,结果表明,所提模型的准确率、召回率和F1值分别为90.20%,93.88%和92.00%,在与领域内传统模型的对比上具有一定优势,并使用3个不同工艺规程数据集验证了该模型的鲁棒性. 展开更多
关键词 双向长短记忆网络 条件随机 命名实体识别 知识抽取
下载PDF
基于U-net-BiLSTM-CRF的心律失常多目标检测
6
作者 王雨轩 朱俊江 +1 位作者 黄浩 濮玉 《计算机应用与软件》 北大核心 2024年第4期142-150,共9页
由于卷积滤波尺寸等限制,U-net无法学习到心电(Electrocardiographic,ECG)信号的长时序关联性以及标签间的相关性。对此提出一种基于U-net-BiLSTM-CRF的心律失常多目标检测方法,可同时输出目标心拍所属类型和位置信息。使用U-net学习融... 由于卷积滤波尺寸等限制,U-net无法学习到心电(Electrocardiographic,ECG)信号的长时序关联性以及标签间的相关性。对此提出一种基于U-net-BiLSTM-CRF的心律失常多目标检测方法,可同时输出目标心拍所属类型和位置信息。使用U-net学习融合特征,再将其输入到双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)中学习长时序依赖特征,最后使用条件随机场(Conditional Random Field,CRF)对标签间的关系建模,优化分类结果。依据ANSI/AAMI EC57:2012的心搏分类标准,对MIT-BIH心律失常数据库中共85609个心拍记录进行划分,在划分后数据集上的实验结果表明,该方法对心拍分类的准确率达99.11%,特异性为99.76%,灵敏度为97.21%,优于传统U-net在MIT-BIH心律失常数据库上的分类性能。 展开更多
关键词 心律失常检测 U-net 双向长短记忆网络 条件随机
下载PDF
基于BiLSTM-CRF的中医文言文文献分词模型研究 被引量:14
7
作者 王莉军 周越 +1 位作者 桂婕 翟云 《计算机应用研究》 CSCD 北大核心 2020年第11期3359-3362,3367,共5页
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并... 由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,构建了基于BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。 展开更多
关键词 中医 分词 条件随机 双向长短记忆
下载PDF
基于双向编码器表示模型和注意力机制的食品安全命名实体识别 被引量:12
8
作者 姜同强 王岚熙 《科学技术与工程》 北大核心 2021年第3期1103-1108,共6页
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名... 针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers, Bert)和注意力机制的命名实体识别模型。模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field, CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体。实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%。Bert-BiLSTM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率。 展开更多
关键词 命名实体识别 字向量 裁判文书 双向长短记忆网络 条件随机
下载PDF
基于BiLSTM-CRF的商情实体识别模型 被引量:39
9
作者 张应成 杨洋 +3 位作者 蒋瑞 全兵 张利君 任晓雷 《计算机工程》 CAS CSCD 北大核心 2019年第5期308-314,共7页
结合语言模型条件随机场(CRF)和双向长短时记忆(BiLSTM)网络,构建一种BiLSTM-CRF模型,以提取商情文本序列中的招标人、招标代理以及招标编号3类实体信息。将规范化后的招标文本序列按字进行向量化,利用BiLSTM神经网络获取序列化文本的... 结合语言模型条件随机场(CRF)和双向长短时记忆(BiLSTM)网络,构建一种BiLSTM-CRF模型,以提取商情文本序列中的招标人、招标代理以及招标编号3类实体信息。将规范化后的招标文本序列按字进行向量化,利用BiLSTM神经网络获取序列化文本的前向、后向文本特征,并通过CRF提取出双向本文特征中相应的实体。实验结果表明,与传统机器学习算法CRF相比,该模型3类实体的精确率、召回率和F1值平均提升15.21%、12.06%和13.70%。 展开更多
关键词 条件随机 双向长短记忆网络 语言模型 命名实体识别 深度学习
下载PDF
基于BERT-BiLSTM-CRF模型的中文实体识别 被引量:92
10
作者 谢腾 杨俊安 刘辉 《计算机系统应用》 2020年第7期48-55,共8页
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一... 命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果,F1值分别为94.65%和95.67%. 展开更多
关键词 命名实体识别 BERT模型 双向长短记忆网络 条件随机 词向量
下载PDF
基于Bert-BiLSTM-CRF模型的电子病历隐私信息识别方法 被引量:1
11
作者 陈逸墨 叶辉 +3 位作者 易珺 周华文 方丹丹 曹东 《自动化与信息工程》 2022年第2期35-40,共6页
随着电子病历数据开放共享的需求越来越大,电子病历去隐私性问题亟需解决。利用自然语言处理技术,提出一种基于Bert-BiLSTM-CRF模型的电子病历隐私信息识别方法。采用某三甲中医院的电子病历作为数据来源,结合当前公开的数据集进行训练... 随着电子病历数据开放共享的需求越来越大,电子病历去隐私性问题亟需解决。利用自然语言处理技术,提出一种基于Bert-BiLSTM-CRF模型的电子病历隐私信息识别方法。采用某三甲中医院的电子病历作为数据来源,结合当前公开的数据集进行训练,得到正确率为94.02%、召回率为94.25%、F1为93.98%的中医电子病历隐私信息识别模型。与其他传统模型进行对比实验表明,Bert-BiLSTM-CRF模型能有效识别并保护电子病历中的隐私数据,有助于医疗数据的开放共享。 展开更多
关键词 隐私信息 Bert 双向长短记忆网络 条件随机 电子病历
下载PDF
融合注意力机制的电力集控安全隐患实体识别模型研究 被引量:1
12
作者 张滈辰 屈红军 +1 位作者 牛雪莹 耿琴兰 《自动化仪表》 CAS 2023年第10期55-59,64,共6页
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,... 针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。 展开更多
关键词 实体识别 注意力机制 基于Transformer的双向编码器表示 电力集控隐患 最优标签序列 双向长短记忆网络 条件随机
下载PDF
基于多模型融合的电力运检命名实体识别 被引量:1
13
作者 孙玉芹 肖静婷 王海超 《科学技术与工程》 北大核心 2023年第36期15545-15552,共8页
为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-ter... 为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。 展开更多
关键词 电力运检知识图谱 模型融合 命名实体识别 隐马尔可夫-条件随机-双向长短记忆网络(HCB)模型
下载PDF
融合先验知识和字形特征的中文命名实体识别
14
作者 董永峰 白佳明 +1 位作者 王利琴 王旭 《计算机应用》 CSCD 北大核心 2024年第3期702-708,共7页
针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入... 针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。 展开更多
关键词 命名实体识别 注意力机制 卷积神经网络 双向长短记忆 条件随机
下载PDF
基于深度学习的二进制变种协议字段划分方法
15
作者 安晓明 王忠勇 +3 位作者 翟慧鹏 巩克现 王玮 孙鹏 《计算机工程与设计》 北大核心 2024年第4期982-988,共7页
为提高二进制变种协议字段格式划分的准确率,提出一种基于深度学习的方法,能够自动挖掘协议报文序列的深层字段特征完成协议的字段格式划分。引入一种字段列特征数据集的提取方法,在传统的双向长短期记忆条件随机场网络模型的基础上增... 为提高二进制变种协议字段格式划分的准确率,提出一种基于深度学习的方法,能够自动挖掘协议报文序列的深层字段特征完成协议的字段格式划分。引入一种字段列特征数据集的提取方法,在传统的双向长短期记忆条件随机场网络模型的基础上增加协议字段列特征提取模块,搭建一种专门解决二进制变种协议字段格式划分的神经网络PRO-BILSTM-CRF。与二进制未知协议字段格式划分方法以及几种主流网络模型的对比实验结果表明,在变种协议字段格式划分任务上,提出模型能够取得更高准确率。 展开更多
关键词 二进制变种协议 深度学习 双向长短记忆模型 条件随机 特征提取 字段格式划分 协议逆向工程
下载PDF
基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取 被引量:16
16
作者 马建红 张亚梅 +2 位作者 姚爽 张炳斐 郭昌宏 《计算机应用研究》 CSCD 北大核心 2019年第5期1385-1389,1395,共6页
为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。从深度学习的角度出发,提出... 为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。从深度学习的角度出发,提出了一种基于attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,方法切实可行。 展开更多
关键词 领域术语抽取 attention机制 双向长短记忆网络 条件随机 词典 规则
下载PDF
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别 被引量:28
17
作者 李纲 潘荣清 +1 位作者 毛进 操玉杰 《现代情报》 CSSCI 2020年第4期3-12,58,共11页
[目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外... [目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外部词典构造神经网络的词嵌入输入改进实体识别模型。[结果/结论]与传统的CRF和单纯的BiLSTM-CRF模型相比,引入先验知识的词典资源可以取得更好的实体识别效果,F1值达到最高的90.41%。深度学习模型BiLSTM-CRF能够显著提升传统CRF方法的实体识别效果,同时先验的词典知识能进一步增强神经网络的性能。 展开更多
关键词 实体识别 长短记忆网络 条件随机 电子病历 词典资源 深度学习 bilstm-crf神经网络模型
下载PDF
基于BiLSTM-CRF的中文生物医学开放式概念关系抽取 被引量:4
18
作者 王序文 李姣 +1 位作者 吴英杰 李军莲 《中华医学图书情报杂志》 CAS 2018年第11期33-39,共7页
目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Cond... 目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Conditional Random Fields,CRF)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的方法进行对比分析。结果:基于BiLSTM-CRF的中文生物医学开放式概念关系抽取方法取得F1值为0.5221,显著高于基于CRF模型的方法(F1值为0.2353)和基于LSTM模型的方法(F1值为0.3355)。结论:与单独使用CRF模型或LSTM模型的方法相比,基于BiLSTM-CRF的开放式概念关系抽取方法具有更好的鲁棒性和泛化性,对于生物医学文本理解、医学知识网络构建等研究具有借鉴意义。 展开更多
关键词 开放式关系抽取 生物医学概念识别 bilstm-crf 条件随机 长短记忆网络
下载PDF
基于神经网络的微博情绪识别与诱因抽取联合模型 被引量:5
19
作者 张晨 钱涛 姬东鸿 《计算机应用》 CSCD 北大核心 2018年第9期2464-2468,2476,共6页
情绪诱因抽取作为深层次的文本情绪理解已成为情绪分析任务中的新热点,当前研究通常把诱因抽取和情绪识别看作两个独立的任务,容易导致错误在任务间的传播问题。考虑到情绪识别及诱因抽取是相互作用的,以及微博文本中表情符通常表达文... 情绪诱因抽取作为深层次的文本情绪理解已成为情绪分析任务中的新热点,当前研究通常把诱因抽取和情绪识别看作两个独立的任务,容易导致错误在任务间的传播问题。考虑到情绪识别及诱因抽取是相互作用的,以及微博文本中表情符通常表达文本的情绪,提出了一种基于双向长短期记忆条件随机场(Bi-LSTM-CRF)模型的情绪诱因和表情符情绪识别的联合模型。该模型将情绪诱因抽取以及情绪识别形式化为一个统一的序列标注问题,充分利用了情绪诱因与情绪之间的互相作用,将情绪诱因的抽取和情绪识别同时进行。实验结果表明,该模型在诱因抽取任务中的F值为82.70%,在情绪识别任务中的F值为74.74%,相比串行模型的F值分别提高5.82和17.12个百分点,这个结果表明联合模型能够有效降低任务串行进行时的误差传递,同时提高了诱因抽取和情绪识别的F值。 展开更多
关键词 诱因抽取 情绪识别 表情符 序列标注 双向长短记忆条件随机 联合模型
下载PDF
基于ALBERT的中文简历命名实体识别
20
作者 余丹丹 黄洁 +1 位作者 党同心 张克 《计算机工程与设计》 北大核心 2024年第1期261-267,共7页
现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进... 现有的电子简历实体识别方法准确率低,采用BERT预训练语言模型虽能取得较高的准确率,但BERT模型参数量过大,训练时间长,其实际应用场景受限,提出一种基于ALBERT的中文电子简历命名实体识别方法。通过轻量版ALBERT语言模型对输入文本进行词嵌入,获取动态词向量,解决一词多义的问题;使用BiLSTM获取上下文结构特征,深层次挖掘语义关系;将拼接后的向量输入到CRF层进行维特比解码,学习标签间约束关系,输出正确标签。实验结果表明,该方法在Resume电子简历数据集中取得了94.86%的F1值。 展开更多
关键词 电子简历 命名实体识别 预训练语言模型 双向长短记忆网络 条件随机 神经网络 深度学习
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部