期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别 被引量:2
1
作者 高国忠 李宇 +1 位作者 华远鹏 吴文旷 《长江大学学报(自然科学版)》 2024年第1期57-65,共9页
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from... 针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。 展开更多
关键词 油气领域 命名实体识别 BERT 双向长短期记忆网络 条件随机场 BERT-bilstm-crf模型
下载PDF
基于增强优化预训练语言模型的电力数据实体识别方法
2
作者 田雪涵 董坤 +1 位作者 赵剑锋 郭希瑞 《智慧电力》 北大核心 2024年第6期100-107,共8页
知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原... 知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原始数据集,采用增强优化预训练语言模型(RoBERTa)进行动态语义编码,利用双向长短期记忆网络(BiLSTM)和条件随机场(CRF)提取特征并优化标签。实验结果表明,该实体识别方法比传统基于深度学习的实体识别方法的平均数指标F1分数高2.17%,证实其对构建电力数据知识图谱的识别效果。 展开更多
关键词 知识图谱 实体识别 数据增强 预训练语言模型 双向长短期记忆网络 条件随机场
下载PDF
整合BiLSTM-CRF网络和词典资源的中文电子病历实体识别 被引量:26
3
作者 李纲 潘荣清 +1 位作者 毛进 操玉杰 《现代情报》 CSSCI 2020年第4期3-12,58,共11页
[目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外... [目的/意义]通过整合BiLSTM-CRF神经网络和具有先验领域知识的词典资源,提高中文电子病历领域中的实体识别效果。[方法/过程]采用BiLSTM-CRF神经网络模型,以CCKS-2017测评任务提供的脱敏中文电子病历数据为实验数据集,结合Word2Vec和外部词典构造神经网络的词嵌入输入改进实体识别模型。[结果/结论]与传统的CRF和单纯的BiLSTM-CRF模型相比,引入先验知识的词典资源可以取得更好的实体识别效果,F1值达到最高的90.41%。深度学习模型BiLSTM-CRF能够显著提升传统CRF方法的实体识别效果,同时先验的词典知识能进一步增强神经网络的性能。 展开更多
关键词 实体识别 长短期记忆网络 条件随机场 电子病历 词典资源 深度学习 bilstm-crf神经网络模型
下载PDF
基于BERT-BiLSTM-CRF模型的中文实体识别 被引量:81
4
作者 谢腾 杨俊安 刘辉 《计算机系统应用》 2020年第7期48-55,共8页
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一... 命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果,F1值分别为94.65%和95.67%. 展开更多
关键词 命名实体识别 BERT模型 双向长短期记忆网络 条件随机场 词向量
下载PDF
基于多模型融合的电力运检命名实体识别
5
作者 孙玉芹 肖静婷 王海超 《科学技术与工程》 北大核心 2023年第36期15545-15552,共8页
为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-ter... 为有效解决构建电力运检知识图谱的关键步骤之一的电力运检命名实体识别问题,通过构建一种基于Stacking多模型融合的隐马尔可夫-条件随机场-双向长短期记忆网络(hidden Markov-conditional random fields-bi-directional long short-term,HCB)模型方法研究了电力运检命名实体识别问题。HCB模型分为两层,第一层使用隐马尔可夫模型(hidden Markov model,HMM)、条件随机场(conditional random fields,CRF)和双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)模型进行训练预测,再将预测结果输入第二层的CRF模型进行训练,经过双层模型训练预测得出最后的命名实体。结果表明:在电力运检命名实体识别问题上HCB模型的精确率、召回率及F1值等指标明显优于单模型以及其他的融合模型。可见HCB模型能有效解决电力运检命名实体识别问题。 展开更多
关键词 电力运检知识图谱 模型融合 命名实体识别 隐马尔可夫-条件随机场-双向长短期记忆网络(HCB)模型
下载PDF
基于BERT-BiLSTM-CRF的电力集控安全隐患数据处理
6
作者 张滈辰 屈红军 +1 位作者 牛雪莹 耿琴兰 《通信电源技术》 2023年第21期24-27,共4页
为了提高电力集控系统安全隐患数据处理的效果,提出一种基于来自变换器的双向编码器表示-双向长短期记忆网络-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short Term Memory-Conditional ... 为了提高电力集控系统安全隐患数据处理的效果,提出一种基于来自变换器的双向编码器表示-双向长短期记忆网络-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short Term Memory-Conditional Random Fields,BERT-BiLSTM-CRF)的电力集控安全隐患数据处理方法。构建电力集控隐患数据检测模型,应用改进长短时记忆网络(Long Short Term Memory,LSTM)来构建电力集控安全隐患数据修复网络,实现电力集控安全隐患数据处理。实验结果表明,采用所提方法能够更好地完成电力集控安全隐患数据检测与修复,应用效果较好。 展开更多
关键词 来自变换器的双向编码器表示(BERT) 双向长短期记忆网络(BiLSTM) 条件随机场(CRF) 电力集控系统 安全隐患数据检测 数据修复
下载PDF
基于BERT的混合神经网络实体识别方法 被引量:1
7
作者 王卫红 吕红燕 +1 位作者 曹玉辉 霍峥 《计算机技术与发展》 2021年第8期100-105,共6页
针对命名实体识别方法中语义分析不足及准确率较低的问题,提出一种基于BERT模型的混合神经网络实体识别方法。对命名实体识别研究现状进行了调查与分析,发现现有命名实体识别研究中存在数据分析与特征提取不充分导致准确率较低的问题。... 针对命名实体识别方法中语义分析不足及准确率较低的问题,提出一种基于BERT模型的混合神经网络实体识别方法。对命名实体识别研究现状进行了调查与分析,发现现有命名实体识别研究中存在数据分析与特征提取不充分导致准确率较低的问题。利用BERT预训练语言模型动态生成字的语义向量,丰富其文本特征。使用卷积神经网络(convolutional neural network,CNN)模型再次抽取语义特征,实现语义的自动抽取,二者联合作为下一步的输入向量。采用引入注意力机制的双向长短时记忆网络(bi-directional long short-term memory,BiLSTM)获取单个字在字符级别上前后两个方向上的信息。通过条件随机场(conditional random field,CRF)模型解码序列标签,得到全局最优标注序列。在《人民日报》和MSRA两个数据集上的实验结果表明,该方法相比于其他模型,能有效地获取语义信息,在准确率、召回率和F1值上均有所提升。 展开更多
关键词 命名实体识别 BERT模型 卷积神经网络 双向长短期记忆网络 条件随机场
下载PDF
基于方剂数据集的知识图谱构建研究
8
作者 李灿 镇可涵 +1 位作者 唐东昕 解丹 《世界中医药》 CAS 北大核心 2024年第9期1329-1333,共5页
目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库... 目的:构建基于方剂数据集的知识图谱,以系统性地展示方剂实体及其之间的关系。方法:首先建立方剂数据处理与知识图谱构建的规范化流程,获取方剂数据集,然后在4种常用命名实体识别模型中遴选最优模型进行实体抽取,最后利用Neo4j图数据库构建知识图谱。结果:最终遴选出基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场(BERT-BiLSTM-CRF)模型,从数据集中抽取出症状、中西医病名、中医证候等医学实体,平均F1值达90.55%,形成了规范的方剂数据集并构建了方剂知识图谱。结论:利用本文方法抽取出的医学实体为中医药的临床实践和科学研究提供了系统性展示方剂实体及其之间关系的可靠数据基础。所建立的方剂知识图谱实现了中药方剂的知识检索,不仅有助于发现方剂数据中的潜在知识与内在关系,而且为中医药领域的信息整合和知识发现提供了坚实基础,推动中医药的现代化进程。 展开更多
关键词 方剂 数据处理 知识图谱 规范化 命名实体识别 Neo4j图数据库 基于Transformer的双向编码模型-双向长短期记忆网络-条件随机场模型 中医药
下载PDF
基于改进Bi-LSTM-CRF的农业问答系统研究 被引量:7
9
作者 白皓然 孙伟浩 +1 位作者 金宁 马皓冉 《中国农机化学报》 北大核心 2023年第2期99-105,共7页
针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的... 针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的Django框架设计农业领域的实体识别、实体查询、农知问答等子系统。经过试验对比,所提出的改进的Bi-LSTM-CRF在农业信息领域具有更好的实体识别能力,在农业信息语料库上的精确率、召回率和F1值分别为93.23%、91.08%和92.16%。实现农业领域实体识别和农业信息问答的知识图谱网站演示,对农业信息化的发展具有重要意义。 展开更多
关键词 智能问答系统 知识图谱 双向长短期记忆模型(Bi-LSTM) 条件随机场(CRF)
下载PDF
基于BiLSTM-CRF的司法领域实体识别研究 被引量:1
10
作者 杨品莉 谢志长 《现代计算机》 2020年第25期3-8,共6页
司法信息自动化是司法领域发展的必然趋势,而司法实体识别是实现司法信息自动化的基础,是后续实现司法事件抽取,构建司法领域知识图谱的必要前提,具有重要的研究意义。目前,随着自然语言处理技术的不断发展,实体识别领域的研究也越来越... 司法信息自动化是司法领域发展的必然趋势,而司法实体识别是实现司法信息自动化的基础,是后续实现司法事件抽取,构建司法领域知识图谱的必要前提,具有重要的研究意义。目前,随着自然语言处理技术的不断发展,实体识别领域的研究也越来越成熟,但由于中文字符的特殊性以及司法领域对准确性要求非常高等原因,面向司法领域的实体识别研究比较少。对此,提出一种基于深度学习的模型来自动识别裁判文书中的实体,该模型由双向长短期记忆模型(BiLSTM)和条件随机场模块(CRF)组成,将该模型称为BiLSTM-CRF,为了进一步提升模型实体识别的准确率,提出使用Adam优化器对模型进行优化。使用从裁判文书网上获取的减刑案件、假释案件及暂予监外执行案件的裁判文书作为数据集对该模型进行验证。在对比实验中首先将该模型的实验结果与其他实体识别模型进行对比,然后使用不同优化算法优化模型以证明Adam优化器的有效性。实验表明,带Adam优化器的BiLSTM-CRF模型在数据集上能够取得最优的结果,准确率为0.876,召回率为0.858,F1值为0.855。实验结果证明带Adam优化器的BiLSTM-CRF模型在司法领域实体识别上的可行性。 展开更多
关键词 双向长短期记忆模型(BiLSTM) 条件随机场(CRF) 实体识别 司法实体识别 优化器
下载PDF
基于ALBERT-CAW模型的时政新闻命名实体识别方法
11
作者 范钰程 梁凤梅 邬志勇 《电子设计工程》 2022年第15期49-54,共6页
针对时政新闻领域词语的含义复杂、新词更新速度快等问题,提出了一种基于ALBERTCAW的时政新闻命名实体识别模型。使用预训练语言模型ALBERT获取文本的动态字词向量,在CAW层中利用多层CNN提取词语的局部特征,使用LSTM获得每个词的上下文... 针对时政新闻领域词语的含义复杂、新词更新速度快等问题,提出了一种基于ALBERTCAW的时政新闻命名实体识别模型。使用预训练语言模型ALBERT获取文本的动态字词向量,在CAW层中利用多层CNN提取词语的局部特征,使用LSTM获得每个词的上下文语意,将两者结果融合,输入BiLSTM获取深层特征,通过条件随机场(CRF)获取最有可能的标签作为识别结果。在自建的人民日报新闻数据集上取得了87.3%的F1值,优于对比模型。实验结果表明,该模型能较好地应用于时政新闻命名实体识别任务。 展开更多
关键词 命名实体识别 字词融合(CAW) ALBERT预训练语言模型 双向长短期记忆网络 条件随机场(CRF)
下载PDF
面向招标物料的命名实体识别研究及应用 被引量:1
12
作者 米健霞 谢红薇 《计算机工程与应用》 CSCD 北大核心 2023年第2期314-320,共7页
招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特... 招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特征等问题,从而影响识别效果。针对上述问题,提出了一种CB-BiLSTM-CRF模型,采用卷积神经网络对汉字的五笔编码进行提取,与BERT所获得的字符特征相结合,以增强不同语境中的语法和语义信息的表征能力,通过BiLSTM模型对组合特征进行深层次提取处理,CRF模型获得最优序列结果。实验结果表明,该模型在收集到的招标领域中物料数据的F1值达到95.82%,优于其他常用模型。同时,在此基础上搭建了“智能物料”在线识别网页平台,用户可以快速在大量数据中提取到有效信息。 展开更多
关键词 命名实体识别 招标物料识别 BERT预训练模型 双向长短期记忆网络 条件随机场
下载PDF
面向高中化学试题的命名实体识别
13
作者 张璐 马子睿 +1 位作者 王岳 马翠玲 《吉林大学学报(信息科学版)》 CAS 2023年第4期608-620,共13页
中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类... 中文化学命名实体结构没有严格的构词规律可循,识别实体中包含字母、数字、特殊符号等多种形式,传统字向量模型无法有效区分化学术语中存在的嵌套实体和歧义实体。为此,将高中化学试题资源的命名实体划分为物质、性质、量值、实验四大类,并构建化学学科实体词汇表辅助人工标注。通过ALBERT预训练模型提取文本特征并生成动态字向量,结合BILSTM-CRF(Bidirectional Long Short-Term Memory with Conditional Random Field)模型对高中化学试题文本进行命名实体识别。实验结果表明,该模型的精确率、召回率和F1值分别达到了95.24%、95.26%、95.25%。 展开更多
关键词 命名实体识别 ALBERT预训练模型 双向长短期记忆网络 条件随机场 化学资源文本
下载PDF
医学信息领域人工智能技术的主题漂移与未来展望——基于JCR 26本医学信息期刊文本的命名实体识别 被引量:1
14
作者 徐璐璐 杨嘉乐 康乐乐 《现代情报》 CSSCI 2022年第10期163-176,共14页
[目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展... [目的/意义]在过去数十年中,医学信息研究领域被人工智能技术的重构。为厘清人工智能技术发展对医学信息研究领域带来的影响,本研究采用命名实体对医学信息领域人工智能技术进行识别,深入揭示其主题漂移特征与演化趋势,并提出3点未来展望。[方法/过程]研究中首先采集了JCR中26本医学信息期刊题录信息,而后利用Vosviewer可视化分析人工智能技术的总体分布,在此基础上采用3种深度学习模型对人工智能技术进行命名实体识别和对比,最后分5个时间段梳理其主题漂移并提出3点展望。[结果/结论]Vosviewer可视化显示20年来人工智能技术在医学信息领域占据重要地位;3种深度学习模型对比发现,基于Attention的Bi LSTM-CRF模型的命名实体识别结果最优,F1值提高到88.40%;在5个时间段内,医学信息领域人工智能主流技术以高、中频词为代表围绕着传统型技术且相对稳定,分支技术以低频词为代表则出现深度学习等复杂性技术且随时间有所改变,并呈现直觉(经验发掘)→支持(深入理解)→策略(强化分析)→后推理(支撑决策)→前推理(提前预测);即整体进入较为理性和务实状态,尚缺爆发性变革但确有一定程度变化的主题漂移演化脉络。对此,本文从技术、应用和并行层面提出3点未来展望,以期加强对人工智能在处理医学信息上优、缺点的认知,为更精准地挖掘多源数据提供优质医学诊断具有理论和现实意义。 展开更多
关键词 医学信息 人工智能技术 命名实体 主题漂移 BERT模型 双向长短期记忆网络 条件随机场 注意力机制
下载PDF
融合语义与语法信息的中文评价对象提取 被引量:4
15
作者 周浩 王莉 《智能系统学报》 CSCD 北大核心 2019年第1期171-178,共8页
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信... 鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。 展开更多
关键词 中文评价对象 语义 语法 序列标注 双向长短期记忆网络 条件随机场 提取模型
下载PDF
融合字符串特征的维吾尔语形态切分
16
作者 阿布都克力木·阿布力孜 刘畅 +1 位作者 哈里旦木·阿布都克里木 郭文强 《计算机仿真》 北大核心 2022年第7期257-262,共6页
维吾尔语是一种典型的低资源黏着语,在形态方面存在组合性和歧义性等技术处理难点。针对维吾尔语未登录词和低频率语素的识别困难等问题,提出融合字符串特征的形态切分方法。先利用多尺度卷积神经网络提取字符串特征,再利用双向长短期... 维吾尔语是一种典型的低资源黏着语,在形态方面存在组合性和歧义性等技术处理难点。针对维吾尔语未登录词和低频率语素的识别困难等问题,提出融合字符串特征的形态切分方法。先利用多尺度卷积神经网络提取字符串特征,再利用双向长短期记忆模型对字符和字符串进行上下文编码,最后使用CRF推断。实验结果表明,上述模型优于现有的维吾尔语形态切分模型,充分利用多尺度字符串特征有利于提高F-Score等方面性能。 展开更多
关键词 维吾尔语 自然语言处理 形态切分 多尺度卷积神经网络 双向长短期记忆模型 条件随机场
下载PDF
基于深度学习的电力运维工单命名实体识别
17
作者 肖鹏 徐托 瞿少成 《电脑知识与技术》 2022年第31期7-10,共4页
国家电网公司PMS中积累了大量电力一次设备的运维工单文本数据,但难以有效利用。为此设计了一种基于BERT-BiLSTM-CRF模型的电力一次设备运维工单中文实体识别系统。首先,分析了工单的文本特点及分词难点,总结出七类实体并人工标注3452... 国家电网公司PMS中积累了大量电力一次设备的运维工单文本数据,但难以有效利用。为此设计了一种基于BERT-BiLSTM-CRF模型的电力一次设备运维工单中文实体识别系统。首先,分析了工单的文本特点及分词难点,总结出七类实体并人工标注3452条工单,形成训练集。其次,利用相关设备的试验、故障分析报告对BERT模块进行预训练,以获得电力词向量。然后,利用BiLSTM模块对实体标签进行预测。最后,引入CRF模块优化预测标签。对1000份工单进行中文实体识别实验,结果表明该模型在电力一次设备运维工单文本中具有较高的识别能力。 展开更多
关键词 电力一次设备运维工单 命名实体识别 BERT模型 双向长短期记忆网络 条件随机场
下载PDF
基于BiLSTM-CRF的中文层级地址分词 被引量:15
18
作者 程博 李卫红 童昊昕 《地球信息科学学报》 CSCD 北大核心 2019年第8期1143-1151,共9页
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特... 中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。 展开更多
关键词 中文分词 地址标注 中文层级地址分词 长短记忆网络(LSTM) 双向长短记忆条件随机场模型(bilstm-crf)
原文传递
恶劣环境条件下海外天然气管道站场事故演化知识图谱建模及预警方法 被引量:4
19
作者 陈传刚 胡瑾秋 +2 位作者 韩子从 陈怡玥 肖尚蕊 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期1081-1087,共7页
近年来恶劣环境条件(雷电、风、雨)频发,给长输油气管道尤其是海外油气管道的长期安全运行带来了重大威胁。海外油气管道的运行与应急救援面临着恶劣环境条件下的管道风险事故数据不足、跨国协同较为困难等问题。为解决当前管道事故预... 近年来恶劣环境条件(雷电、风、雨)频发,给长输油气管道尤其是海外油气管道的长期安全运行带来了重大威胁。海外油气管道的运行与应急救援面临着恶劣环境条件下的管道风险事故数据不足、跨国协同较为困难等问题。为解决当前管道事故预警模型过于依赖现场运行数据或事故相关数据的情况,该文利用恶劣环境条件下的天然气管道站场有限的事故文本数据,提出了一种基于知识图谱的站场事故演化预警模型。该模型采用双向长短期记忆网络-条件随机场算法(Bi-LSTM-CRF)对站场事故文本进行因果关系抽取,并加入了文本特征以增强抽取效果,然后利用Neo4j图数据库根据因果关系抽取的结果,建立了恶劣环境条件下海外天然气管道站场事故演化知识图谱。结果表明:相较于传统长输管道站场事故预警方法,该文所提出的基于知识图谱的站场事故预警模型不仅能够实现站场事故的预警,还能够实现对事故的路径预测以及事故应急决策推荐。这证明了该预警模型不仅可用性好,还能够有效地帮助海外天然气管道站场安全管理人员进行准确的风险控制与事故预防。 展开更多
关键词 恶劣环境条件 天然气管道站场 双向长短期记忆网络-条件随机场(Bi-LSTM-CRF)算法 知识图谱 事故预警 路径预测
原文传递
面向行政执法案件文本的事件抽取研究
20
作者 屈潇雅 李兵 温立强 《计算机工程》 CAS 2024年第9期63-71,共9页
行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中... 行政执法的智能化水平是国家治理能力现代化的体现,数据是智能化发展的重要依托。在行政执法领域,各行政机关存储大量以文本形式记录的历史案件,这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息,可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据,并通过人工标注构建一个行政执法领域的数据集,根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征,提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法,通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明,事件类型检测任务的F1值达到99.54%,事件论元抽取任务的F1值达到97.36%,实现了对案件信息的有效抽取。 展开更多
关键词 行政执法案件 事件抽取 两阶段方法 基于Transformer的双向编码器表示模型 基于条件随机场的双向长短期记忆网络(bilstm-crf)模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部