期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究 被引量:46
1
作者 罗凌 杨志豪 +2 位作者 宋雅文 李楠 林鸿飞 《计算机学报》 EI CSCD 北大核心 2020年第10期1943-1957,共15页
近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作... 近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作为中文医学信息抽取的基本任务,已经受到了广泛关注.目前大多数中文电子病历实体识别工作都是在传统通用的文本表示向量基础上,通过特征工程来提升模型在医疗领域上的性能,缺乏适合中文生物医学特定领域的预训练表示向量.此外,目前现存的中文电子病历标注数据十分稀缺,标注电子病历实体需要具备专业的医学背景知识,且耗时耗力.针对这些问题,本文提出了一种基于笔画ELMo和多任务学习的中文电子病历实体识别方法.首先以笔画序列为输入对ELMo表示学习方法进行改进,利用海量无标注的中文生物医学文本学习上下文相关且包含汉字内部结构信息的笔画ELMo向量,然后构建基于多任务学习的神经网络模型来充分利用现存数据提升模型性能.此外,本文还系统地比较了实体识别常用额外特征(包括词向量、词典和部首特征)以及主流神经网络模型(包括CNN、BiLSTM、CNN-CRF和BiLSTM-CRF模型)在中文电子病历实体识别任务上的性能.实验结果表明,在该任务上BiLSTM-CRF模型获得了比其它模型更好的结果,常用额外特征中词典特征最为有效.相比其它现存方法,本文提出的基于笔画ELMo和多任务学习的神经网络模型在CCKS17和CCKS18 CNER数据集上都获得了更好的结果,F值分别为91.75%和90.05%. 展开更多
关键词 笔画elmo 多任务学习 神经网络 实体识别 中文电子病历
下载PDF
基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究 被引量:1
2
作者 杨美芳 杨波 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第9期86-99,共14页
【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo... 【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】本文模型能够为企业风险领域实体语料库构建提供参考借鉴。 展开更多
关键词 笔画elmo 迭代膨胀卷积神经网络 条件随机场 实体抽取 风险领域实体
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部