期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于MRC和ERNIE的有色冶金命名实体识别模型 被引量:1
1
作者 贵向泉 郭亮 李立 《计算机技术与发展》 2023年第10期93-100,共8页
命名实体是构建产业企业画像和产业知识图谱的重要依据,为解决现有方法在有色冶金领域命名实体识别任务当中无法充分提取文本语义特征、没有充分利用标签当中的先验知识和嵌套命名实体识别效果不佳的问题,提出了一种基于机器阅读理解框... 命名实体是构建产业企业画像和产业知识图谱的重要依据,为解决现有方法在有色冶金领域命名实体识别任务当中无法充分提取文本语义特征、没有充分利用标签当中的先验知识和嵌套命名实体识别效果不佳的问题,提出了一种基于机器阅读理解框架(MRC)和知识增强语义表示模型(ERNIE)的MEAB(MRC-ERNIE-Attention-BiLSTM)模型结构。该模型在MRC框架的基础上,引入了基于Attention的信息融合策略,将两种不同结构的数据在ERNIE预训练模型进行特征提取之后转换为向量,并在信息融合层进行向量融合,使模型能够学习到标签当中的先验知识。随后BiLSTM模型对具有语义信息的向量从两个方向进行特征提取,并在一种多层嵌套命名实体识别器中进行输出,提高了嵌套命名实体的识别准确率。在构建的有色冶金领域命名实体识别数据集上的实验表明,MEAB模型的精确率、召回率和F1值分别达到了78.77%、79.76%和79.26%,证明了该模型的有效性。 展开更多
关键词 有色冶金产业 自然语言处理 命名实体识别 MRC ernie
下载PDF
融入结构先验知识的隐私信息抽取算法
2
作者 赵玉媛 王斌 +2 位作者 张泽丹 李青山 胡建斌 《信息安全研究》 CSCD 北大核心 2024年第2期139-147,共9页
随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统... 随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如BERT).这些模型利用其强大的上下文特征表示能力,克服了传统方法在多义词表示方面的限制.然而,它们在精确判断实体边界方面仍有改进空间.提出了一种新颖的隐私信息抽取算法,该算法融合结构先验知识,通过一种隐私数据结构知识增强机制,提高模型对句子语义结构的理解,从而提高了隐私信息边界判断的准确性.此外,还在多个公开数据集上对模型进行评估,详细的实验结果展示了其有效性. 展开更多
关键词 结构先验知识 结构增强机制 隐私信息抽取算法 实体边界判断 数据脱敏 自然语言处理
下载PDF
基于功效特征的专利聚类方法 被引量:2
3
作者 马建红 曹文斌 +1 位作者 刘元刚 夏爽 《计算机应用》 CSCD 北大核心 2021年第5期1361-1366,共6页
当前专利是按照领域划分的,而基于功效特征可以实现跨领域的专利聚类,这在企业创新设计中具有重要意义,而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示(ERNIE)和卷积神经网络(CNN)... 当前专利是按照领域划分的,而基于功效特征可以实现跨领域的专利聚类,这在企业创新设计中具有重要意义,而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示(ERNIE)和卷积神经网络(CNN)相结合的功效特征联合提取(FEI-Joint)模型来提取专利文献的功效特征,并且改进自组织神经网络(SOM)算法,从而提出具有早期拒绝策略与类合并思想的自组织神经网络(ERCM-SOM)来实现基于功效特征的专利聚类。对FEI-Joint模型与TF-IDF、狄利克雷分布(LDA)、CNN在特征提取后的聚类效果上进行比较和分析,结果表明其F-measure值比其他模型有明显提高。ERCM-SOM算法与K-Means算法、SOM算法相比,在Fmeasure值提高的同时,其时间较SOM算法有明显缩短。对比使用专利分类号(IPC)的专利分类,采用基于功效特征的聚类方法可实现跨领域的专利聚类效果,为设计者借鉴其他领域的设计方法奠定了基础。 展开更多
关键词 专利聚类 信息实体语义增强表示 卷积神经网络 跨领域 自组织神经网络
下载PDF
基于数据增强和字词融合特征的实体槽位识别 被引量:3
4
作者 刘振元 许明阳 王承涛 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第11期101-106,共6页
针对传统的基于字级表示的实体槽位识别模型无法很好利用词语信息,以及信息技术(IT)运维领域缺少足够数量公开数据集的问题,提出一种基于BERT_Word2vec_BiLSTM_CRF模型的实体槽位识别方法,并通过数据增强对模型的训练数据集进行扩展.该... 针对传统的基于字级表示的实体槽位识别模型无法很好利用词语信息,以及信息技术(IT)运维领域缺少足够数量公开数据集的问题,提出一种基于BERT_Word2vec_BiLSTM_CRF模型的实体槽位识别方法,并通过数据增强对模型的训练数据集进行扩展.该模型将基于转换器的双向编码表征(BERT)模型得到的字向量表示和Word2vec得到的词向量表示进行融合,通过双向长短时记忆(BiLSTM)网络进行上下文编码,通过条件随机场(CRF)进行解码,得到最终的序列标注结果.通过在某企业提供的数据集上进行实验,结果表明:融合词级特征可以在BERT预训练模型的基础上进一步提升识别性能,F_(1)值达到了92.33%. 展开更多
关键词 IT运维 实体槽位识别 字词融合 数据增强 基于转换器的双向编码表征(BERT)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部