期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于BLSTM-CRF的自举式术语识别方法研究
1
作者 陈翀 高欣妍 黄红 《情报工程》 2023年第5期97-111,共15页
[目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;... [目的/意义]自动识别优质术语一直是多领域普遍关注的问题,其中一个突出困难是缺乏领域标注语料,为此本文提出一种基于BLSTM-CRF的自举式领域术语识别方法。[方法/过程]首先选取少量种子术语标注语料,训练BLSTM-CRF模型,识别候选术语;再基于术语质量特征构造筛选准则,从候选术语中挑出优质且新增的结果加入到新一轮训练的标注词汇集合,迭代标注训练,直到新增术语量小于某一阈值或迭代达到特定次数。本文还检测了模型迭代训练效率及在其他领域的推广性,将在计算机领域语料训练出的模型用于新兴的融合出版领域的技术术语识别。[局限]术语质量特征量化方法待综合多指标优化,模型改进学习机制未引入负例且迭代不易收敛等。[结果/结论]本文最终通过标注数量和标注语境丰富度实验表明了采用新增标注数据进行迭代的有效性。以50轮迭代训练后结果为例,在计算机测试语料上识别术语及其所有标注序列的F1值为0.43和0.59,新术语率为0.79,均优于基准BLSTM-CRF模型、BERT-BLSTM-CRF模型效果,证实了新方法启动成本低,领域适应性好,能够有效解决术语识别中训练语料缺乏的问题。在模型迁移效能评价中,抽样判断的术语识别平均正确率为87.7%,说明了迁移学习方法的应用潜力。 展开更多
关键词 术语识别 自举 blstm-crf模型 识别性能评价 术语质量筛选准则
下载PDF
基于BLSTM-CRF中文领域命名实体识别框架设计 被引量:13
2
作者 张俊飞 毕志升 +1 位作者 王静 吴小玲 《计算技术与自动化》 2019年第3期117-121,共5页
为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字... 为在不依赖特征工程的情况下提高中文领域命名实体识别性能,构建了BLSTM-CRF神经网络模型。首先利用CBOW模型对1998年1月至6月人民日报语料进行负采样递归训练,生成低维度稠密字向量表,以供查询需要;然后基于Boson命名实体语料,查询字向量表形成字向量,并利用Jieba分词获取语料中字的信息特征向量;最后组合字向量和字信息特征向量,输入到BLSTM-CRF深层神经网络中。实验结果证明,该模型面向中文领域命名实体能够较好的进行识别,F1值达到91.86%。 展开更多
关键词 blstm-crf CBOW BOSON 命名实体识别
下载PDF
基于BERT-BLSTM-CRF的政务领域命名实体识别方法 被引量:6
3
作者 杨春明 魏成志 +2 位作者 张晖 赵旭剑 李波 《西南科技大学学报》 CAS 2020年第3期86-91,共6页
政务领域的命名实体通常是一些政务事项名,这类实体与开放域实体比较,具有长度较长、实体并列、别称等特点,目前还未见公开可用的训练数据集。构建了具有25176个句子的政务领域命名实体识别数据集,并提出一种基于BERT-BLSTM-CRF的神经... 政务领域的命名实体通常是一些政务事项名,这类实体与开放域实体比较,具有长度较长、实体并列、别称等特点,目前还未见公开可用的训练数据集。构建了具有25176个句子的政务领域命名实体识别数据集,并提出一种基于BERT-BLSTM-CRF的神经网络识别模型,该模型在不依赖人工特征选择的情况下,使用BERT中文预训练模型,然后采用BLSTM-CRF识别实体。实验结果表明,该模型识别效果优于CRF,BLSTM-CRF,CNN-BLSTM-CRF,F1值达到92.23%。 展开更多
关键词 政务事务 命名实体识别 BLSMT CRF BERT
下载PDF
基于BLSTM-CRF模型的安全漏洞领域命名实体识别 被引量:16
4
作者 张若彬 刘嘉勇 何祥 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第3期469-475,共7页
非结构化文本资源提供了大量与漏洞相关的信息,传统的特定领域实体识别依赖特征模板和领域知识来识别相关实体,其识别性能很大程度上依赖于人工选取的特征函数质量.如何利用机器挖掘文本隐含的特征,而不需要人工详细地制定领域术语的特... 非结构化文本资源提供了大量与漏洞相关的信息,传统的特定领域实体识别依赖特征模板和领域知识来识别相关实体,其识别性能很大程度上依赖于人工选取的特征函数质量.如何利用机器挖掘文本隐含的特征,而不需要人工详细地制定领域术语的特征表达是一项具有挑战性的任务.该文针对安全漏洞领域,提出一种双向长短期记忆网络BLSTM与条件随机场CRF相结合的安全漏洞领域实体识别模型,并使用基于词典的方法对结果进行校正,F值可达到85%以上.实验表明,该方法在提高实体识别的准确率和召回率的同时,能够显著地降低人工选取特征的工作量. 展开更多
关键词 安全漏洞 实体识别 BLSTM CRF
下载PDF
基于BLSTM-CRF的领域知识点实体识别技术
5
作者 周海华 曹春萍 《软件》 2019年第2期1-5,共5页
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短... 传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。 展开更多
关键词 实体识别 神经网络 BLSTM CRF
下载PDF
融合BERT模型与词汇增强的中医命名实体识别模型
6
作者 李旻哲 殷继彬 《计算机科学》 CSCD 北大核心 2024年第S01期122-127,共6页
现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-B... 现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-BILSTM-CRF。该方法从词汇增强和预训练模型融合的角度进行优化,将词汇信息输入到BERT模型中进行特征学习,达到划分词类边界和区分词类属性的目的,提高中医医案命名实体识别的精度。实验结果表明,在文中构建的中医病例数据集上针对10个实体进行命名实体识别时,提出的基于LEBERT-BILSTM-CRF的中医案例命名实体识别模型综合准确率、召回率、F1分别为88.69%,87.4%,88.1%,高于BERT-CRF,LEBERT-CRF等常用命名实体识别模型。 展开更多
关键词 自然语言处理 中医案例 词汇增强 BERT blstm-crf
下载PDF
基于多特征融合嵌入与DCNN的临床命名实体识别模型研究
7
作者 杨旭 梁志剑 《中北大学学报(自然科学版)》 CAS 2024年第3期265-273,共9页
针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和... 针对目前最先进的临床命名实体识别(Cinical Named Entity Recognition,CNER)模型未能充分挖掘文本的全局信息和语义特征,以及未能解决文本中的字符替换等问题,改进了传统的单词嵌入模型,并在此基础上提出了一种结合深度卷积神经网络和双向短时记忆条件随机场(DCNN-BiLSTM-CRF)的临床文本命名实体识别方法。改进的单词嵌入模型融合词根、拼音和字符本身意义,使用了来自Transformers的双向编码器表示,使单词嵌入向量具有汉字和临床文本的特点,该方法通过在临床命名实体识别任务中引入深度卷积神经网络(Deep Convolutional Neural Networks,DCNN),解决了CNN预测时丢失部分信息无法找回的问题。通过使用DCNN,本文模型能够更有效地捕获全局信息、获取字符之间的权重关系和多层次语义特征信息,从而提高了临床命名实体识别的准确性。在数据集CCKS2017和CCKS2018上分别进行实验,实验结果表明,与基准模型相比,该模型F1值分别改善了0.48%,0.68%,0.6%,0.58%,0.04%和1.43%,2.36%,3.31%,1.11%,0.17%。为了进一步验证本文的模型,进行了两种消融实验。结果表明,在两个数据集CCKS2017和CCKS2018上本文模型对比变体模型M1,F1值分别改善了0.79%和0.84%;对比变体模型M2,F1值分别改善了0.53%和0.64%。这些实验结果证明了本文所提算法的可行性。 展开更多
关键词 临床命名实体识别 多特征融合嵌入 深度卷积神经网络 blstm-crf BERT
下载PDF
面向化学资源文本的命名实体识别 被引量:5
8
作者 马建红 王立芹 姚爽 《郑州大学学报(理学版)》 CAS 北大核心 2018年第4期14-20,共7页
针对化学资源文本中的命名实体,提出一种适合于化学资源文本的命名实体识别方法,旨在将化学物质、属性、参数、量值4种命名实体进行识别.该方法根据化学资源文本的语言规律及特点,建立BLSTM-CRF模型对命名实体进行初步识别,并使用基于... 针对化学资源文本中的命名实体,提出一种适合于化学资源文本的命名实体识别方法,旨在将化学物质、属性、参数、量值4种命名实体进行识别.该方法根据化学资源文本的语言规律及特点,建立BLSTM-CRF模型对命名实体进行初步识别,并使用基于词典与规则相结合的方法对识别结果进行校正.实验结果表明,该方法在化学资源文本中能够较好地完成命名实体识别任务,在测试语料上的F1值最高能达到94.26%. 展开更多
关键词 化学资源文本 命名实体识别 双向长短时记忆网络 条件随机场 规则
下载PDF
融合多特征的老挝语人名地名命名实体识别 被引量:1
9
作者 彭骁男 周兰江 +1 位作者 张建安 周枫 《中国水运(下半月)》 2020年第3期74-77,共4页
本文依据老挝语人名地名语言学中句法与词法的相关特征,使用不同的算法进行特征间的实现与融合,形成特定的老挝语人名地名命名实体识别模型。首先,依据老挝语地名特征,将有限个省份和国家词语组建成词典。其次使用Word2vec在较大规模的... 本文依据老挝语人名地名语言学中句法与词法的相关特征,使用不同的算法进行特征间的实现与融合,形成特定的老挝语人名地名命名实体识别模型。首先,依据老挝语地名特征,将有限个省份和国家词语组建成词典。其次使用Word2vec在较大规模的老挝语训练语料中,训练具有上下文语义特征信息的词向量,依据老挝语人名地名的构词特征使用BLSTM进行词语字符级向量训练,将字符级特征向量和词向量组合拼接成组合向量。将老挝语地名做状语后置的句法特征,通过One-Hot算法进行向量化,和组合向量进行融合。再将完整的特征向量输入到最后一层CRF中进行命名实体识别训练,融合了多特征的老挝语命名实体识别模型,模型识别人名地名的准确率、F值得到4%左右的提高。 展开更多
关键词 命名实体识别 老挝语 blstm-crf 多特征
下载PDF
基于序列标注的引语识别初探 被引量:2
10
作者 贾泓昊 罗智勇 《中文信息学报》 CSCD 北大核心 2019年第2期1-7,共7页
句间引用关系自动识别是篇章分析中一项重要内容。句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少。句间引用关系主要体现在引语中的引用句上。引语由引导句和引用句组成,一般分为直接引语和间... 句间引用关系自动识别是篇章分析中一项重要内容。句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少。句间引用关系主要体现在引语中的引用句上。引语由引导句和引用句组成,一般分为直接引语和间接引语,其中间接引语的识别难度最大。引导句和引用句相对位置不定、不同领域语料的引语与非引语比例极不均衡等进一步增加了引语自动识别的难度。该文主要尝试对引用这一句间关系进行初步探索,采用条件随机场(CRF)以及双向长短期记忆网络与条件随机场相结合(BLSTM-CRF)的方法对引语进行自动识别,并引入引导句中管领词特征进行实验对比。实验结果表明,CRF模型和BLSTM-CRF模型对引语的识别精确率分别达到85.49%和80.19%,F值分别达到78.75%和79.60%。 展开更多
关键词 引语的识别 序列标注 条件随机场 双向长短期记忆网络
下载PDF
基于深度学习和CRFs的产品评论观点抽取方法 被引量:9
11
作者 睢国钦 那日萨 彭振 《情报杂志》 CSSCI 北大核心 2019年第5期177-185,共9页
[目的/意义]产品评论观点抽取任务是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。[方法/过程]针对条件随机场(CRFs)模型需要人工构造语言学特征的缺陷,提出一种基于深... [目的/意义]产品评论观点抽取任务是细粒度评论挖掘的核心任务,其面临的主要挑战是如何自动抽取评论文本中由评价对象、程度词、观点词构成的三元组。[方法/过程]针对条件随机场(CRFs)模型需要人工构造语言学特征的缺陷,提出一种基于深度学习和CRFs的产品评论抽取方法,该方法首先在连续词袋模型(CBOW)获得词向量基础上,利用双向长短期记忆神经网络(BLSTM RNN)自动学习评论语句的文本特征,再以CRFs层进行解码标注,进而识别出三元组。[结果/结论]为验证方法的有效性,针对从京东商城等电商平台上抓取的手机和酒店评论集,人工标注部分评论用于训练模型并进行测试,实验结果表明,该方法在产品评论观点抽取任务上取得了平均F值大于80%的效果。 展开更多
关键词 观点抽取 CRFs深度学习 词向量 CBOW BLSTM
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部