中文电子病历数据元抽取方法

A Method for Extracting Data Elements from Chinese Electronic Medical Records

下载PDF

导出

摘要目的/意义提出基于国家标准的电子病历数据元抽取方法,以实现电子病历数据的细粒度共享。方法/过程利用ALBERT、BiLSTM和CRF模型对电子病历进行序列标注,并根据标注结果生成一组候选数据元;针对每个候选数据元,采集其上下文信息并形成一个增强的键向量;计算该向量与标准向量之间的相似度,据此判断候选数据元是否有效。结果/结论该方法F 1值为90.32%,效果较好。 Purpose/Significance A method is proposed for extracting data elements from electronic medical records(EMR)based on national standards,helping to achieve fine-grained sharing of EMR data.Method/Process The ALBERT,BILSTM and CRF models are used to perform sequence labeling on EMR,and a set of candidate data elements based on labeling results are generated.For any candidate data elements,the contextual information is collected to form an enhanced key vector.Then the similarity between the vector and the standard vector is calculated to determine whether the candidate data element is valid.Result/Conclusion The F 1 value is 90.32%,indicating the proposed method has a good performance.

作者郭维嘉郭少友 GUO Weijia;GUO Shaoyou(Henan Provincial Library,Zhengzhou 450052,China;School of Information Management,Zhengzhou University,Zhengzhou 450001,China)

机构地区河南省图书馆郑州大学信息管理学院

出处《医学信息学杂志》 CAS 2024年第8期78-83,共6页 Journal of Medical Informatics

基金国家社会科学基金一般项目(项目编号:20BTQ063)。

关键词电子病历数据元 ALBERT 序列标注 token向量 electronic medical records(EMR) data element ALBERT sequence labeling token

分类号 R-058 [医药卫生]

引文网络
相关文献

1曹珍,郭默宁,管仲军.按DRG预付费改革对医疗服务质量的影响——基于北京市的实证研究[J].社会保障研究,2024(3):52-69.

医学信息学杂志

2024年第8期

浏览历史

内容加载中请稍等...

中文电子病历数据元抽取方法

相关作者

相关机构

相关主题

浏览历史