期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究
被引量:
46
1
作者
罗凌
杨志豪
+2 位作者
宋雅文
李楠
林鸿飞
《计算机学报》
EI
CSCD
北大核心
2020年第10期1943-1957,共15页
近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作...
近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作为中文医学信息抽取的基本任务,已经受到了广泛关注.目前大多数中文电子病历实体识别工作都是在传统通用的文本表示向量基础上,通过特征工程来提升模型在医疗领域上的性能,缺乏适合中文生物医学特定领域的预训练表示向量.此外,目前现存的中文电子病历标注数据十分稀缺,标注电子病历实体需要具备专业的医学背景知识,且耗时耗力.针对这些问题,本文提出了一种基于笔画ELMo和多任务学习的中文电子病历实体识别方法.首先以笔画序列为输入对ELMo表示学习方法进行改进,利用海量无标注的中文生物医学文本学习上下文相关且包含汉字内部结构信息的笔画ELMo向量,然后构建基于多任务学习的神经网络模型来充分利用现存数据提升模型性能.此外,本文还系统地比较了实体识别常用额外特征(包括词向量、词典和部首特征)以及主流神经网络模型(包括CNN、BiLSTM、CNN-CRF和BiLSTM-CRF模型)在中文电子病历实体识别任务上的性能.实验结果表明,在该任务上BiLSTM-CRF模型获得了比其它模型更好的结果,常用额外特征中词典特征最为有效.相比其它现存方法,本文提出的基于笔画ELMo和多任务学习的神经网络模型在CCKS17和CCKS18 CNER数据集上都获得了更好的结果,F值分别为91.75%和90.05%.
展开更多
关键词
笔画
elmo
多任务学习
神经网络
实体识别
中文电子病历
下载PDF
职称材料
基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究
被引量:
1
2
作者
杨美芳
杨波
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022年第9期86-99,共14页
【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo...
【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】本文模型能够为企业风险领域实体语料库构建提供参考借鉴。
展开更多
关键词
笔画
elmo
迭代膨胀卷积神经网络
条件随机场
实体抽取
风险领域实体
原文传递
题名
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究
被引量:
46
1
作者
罗凌
杨志豪
宋雅文
李楠
林鸿飞
机构
大连理工大学计算机科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2020年第10期1943-1957,共15页
基金
十三五国家重点研发计划项目(2016YFC0901900)资助.
文摘
近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作为中文医学信息抽取的基本任务,已经受到了广泛关注.目前大多数中文电子病历实体识别工作都是在传统通用的文本表示向量基础上,通过特征工程来提升模型在医疗领域上的性能,缺乏适合中文生物医学特定领域的预训练表示向量.此外,目前现存的中文电子病历标注数据十分稀缺,标注电子病历实体需要具备专业的医学背景知识,且耗时耗力.针对这些问题,本文提出了一种基于笔画ELMo和多任务学习的中文电子病历实体识别方法.首先以笔画序列为输入对ELMo表示学习方法进行改进,利用海量无标注的中文生物医学文本学习上下文相关且包含汉字内部结构信息的笔画ELMo向量,然后构建基于多任务学习的神经网络模型来充分利用现存数据提升模型性能.此外,本文还系统地比较了实体识别常用额外特征(包括词向量、词典和部首特征)以及主流神经网络模型(包括CNN、BiLSTM、CNN-CRF和BiLSTM-CRF模型)在中文电子病历实体识别任务上的性能.实验结果表明,在该任务上BiLSTM-CRF模型获得了比其它模型更好的结果,常用额外特征中词典特征最为有效.相比其它现存方法,本文提出的基于笔画ELMo和多任务学习的神经网络模型在CCKS17和CCKS18 CNER数据集上都获得了更好的结果,F值分别为91.75%和90.05%.
关键词
笔画
elmo
多任务学习
神经网络
实体识别
中文电子病历
Keywords
stroke elmo
multi-task learning
neural networks
named entity recognition
Chinese electronic medical records
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究
被引量:
1
2
作者
杨美芳
杨波
机构
江西财经大学信息管理学院
江西财经大学信息资源管理研究所
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022年第9期86-99,共14页
基金
国家自然科学基金项目(项目编号:72064015)
江西省社会科学“十三五”规划项目(项目编号:19TQ01)的研究成果之一。
文摘
【目的】有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】本文模型能够为企业风险领域实体语料库构建提供参考借鉴。
关键词
笔画
elmo
迭代膨胀卷积神经网络
条件随机场
实体抽取
风险领域实体
Keywords
stroke elmo
Iterative Expanded Convolutional Neural Network
Conditional Random Field
Entity Extraction
Risk Domain Entity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究
罗凌
杨志豪
宋雅文
李楠
林鸿飞
《计算机学报》
EI
CSCD
北大核心
2020
46
下载PDF
职称材料
2
基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究
杨美芳
杨波
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部