-
题名融合常用语的大规模疾病术语图谱构建
被引量:3
- 1
-
-
作者
张晨童
张佳影
张知行
阮彤
何萍
葛小玲
-
机构
华东理工大学
上海申康医院发展中心
复旦大学附属儿科医院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第11期2467-2477,共11页
-
基金
国家自然科学基金项目(61772201)
国家重点研发计划项目(2018YFC0910500)。
-
文摘
国家卫计委要求医疗机构使用国际疾病分类(international classification of diseases, ICD)编码,然而由于临床疾病描述存在大量的常用词,导致电子病历中录入的诊断名称与ICD编码直接映射匹配率低.基于区域健康平台上的真实诊断数据,构建了融合常用语的疾病术语图谱.具体来说,在基于疾病构成成分的规则算法基础上,提出了基于数据增强的BERT(bidirectional encoder representation from transformers)上下位关系识别算法,将5万多个诊断常用语和ICD10(international classification of diseases 10th revision,Chinese version)中的疾病进行同义关系和上下位关系识别,进一步融合了ICD11(international classification of diseases 11th revision,Chinese version)的层次结构,此外,还提出了基于疾病-科室关联图谱的任务分配方法以进行人工校验,最终94 478个疾病实体形成了包含1 460条同义关系、46 508条上下位关系的大规模疾病术语图谱.评估实验表明,基于疾病术语图谱,对临床诊断数据的覆盖率比基于ICD10的直接映射编码的覆盖率提升了75.31%,另外,利用疾病术语图谱自动进行编码疾病相比于医生人工编码会缩短约59.75%的编码时间,且正确率达到85%.
-
关键词
常用语
疾病术语图谱
国际疾病分类
关系识别
校验
-
Keywords
common terms
disease terminology graph
ICD(international classification of diseases)
relationship recognition
verification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-