基于条件随机域的临床文本去识别研究被引量：3

De-identification of Clinical Texts Based on Conditional Random Fields

下载PDF

导出

摘要目的本研究旨在有效识别临床文本中的隐私信息,以保护患者隐私,实现临床信息的共享与利用,促进基于临床医学证据研究的发展。方法采用中国四川省某市级区域人口健康信息平台随机抽取的18350条住院小结作为样本,基于条件随机域(conditional random field,CRF)模型,对样本数据中多种PHI类型进行识别。结果人工标注PHI实体总数为32210个,标注一致性达到92.7%,经过对不一致标记进行校正审核,一致性收敛至100%。测试结果评估显示,除病理号、X线片号、89岁以上的年龄以外,其他PHI类型的F值均超过95%,综合F值达到98.72%。结论本研究基于大规模多样化临床文本数据,利用机器学习的方法,实现了高效的自动化临床文本去识别。对于在保护模型的基础上开发更高效的健康大数据去识别算法以及保证去识别技术的一般性和可扩展性的研究还有待探索。 Objectives In order to achieve the sharing and utilization of clinical information, and promote the development of clinical medicine research based on evidence, and protect the patient’s privacy information effectively at the same time, the effective identification of clinical privacy information in the text is very important. Methods This research adopted 18350 discharge summaries from the municipal area population health information platform in China’s Sichuan province. This paper proposed a method based on CRF model to identify various protected health information. Results The total number of protected health information by manual annotation was 32210. After the audit to the inconsistent annotation, the consistency changed from 92.7% to 100%. Except for pathology number, X-ray number and age more than 89-year-old, F-measure of other types were more than 95%, comprehensive F-measure reached 98.72%. Conclusion This research was based on machine learning method and adopted large-scale diversified data. And we realized effective identification of clinical privacy information in the text. The future direction of the automated clinical text de-identification research includes： Ensuring the generality and expansibility of identifying technology; developing the more efficient de-identification algorithm for health big data on the basis of protecting model.

作者都丽婷夏晨曦赵冬宋阳罗维冯德军洪旭马敬东

机构地区华中科技大学同济医学院医药卫生管理学院成都中医药大学医学信息工程学院雅安市卫生与计划生育委员会四川九阵妙凰科技集团有限公司创新中心

出处《中国卫生信息管理杂志》 2017年第2期217-222,共6页 Chinese Journal of Health Informatics and Management

基金中央高校基本科研业务费资助项目:区域医疗机构知识网络形成机制研究(项目编号:2015AE017)

关键词去识别临床文本 PHI CRF De-identification Clinical text PHI CRF

分类号 R-34 [医药卫生] R37 [医药卫生—病原生物学]

引文网络
相关文献

参考文献4

1金兴,王咏红.健康医疗大数据的应用与发展[J].中国卫生信息管理杂志,2016,13(2):187-190. 被引量：44
2赵蓉,何萍.医疗大数据应用中的个人隐私保护体系研究[J].中国卫生信息管理杂志,2016,13(2):191-196. 被引量：45
3徐益辉,姚琴,袁冬生,周天舒,李劲松.中文医疗文本匿名化方法研究[J].中国数字医学,2014,9(7):19-21. 被引量：6
4叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47

二级参考文献25

1俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
2Doan A,Naughton JF,Ramakrishnan R,et al.Information extraction challenges in managing unstructured data[J].ACM SIGMOD Record,2008,37(4):14-20.
3Vlachos A,Gasperin C.Bootstrapping and evaluating named entity recognition in the biomedical domain[C]//Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology.New York:Association for Computational Linguistics Morristown,2006:138-145.
4Bundschus M,Dejori M,Stetter M,et al.Extraction of semantic biomedical relations from text using conditional random fields[J].BMC Bioinformatics,2008,9:207.
5Leaman R,Gonzalez GR.BANNER:An executable survey of advances in biomedical named entity recognition[C]//Proceedings of Pacific Symposium on Biocomputing.Hawaii:World Scientific Publishing Co.Pte.Ltd,2008:652-663.
6Leaman R,Miller C,Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:Corpus and benchmark[C]//Proceedingsof the 3rdInternational Symposium on Lagauges in Biology and Medicine.Seogwipo-si.LBM,2009:82-89.
7Tsai Tzong-ham,Chou Wen-Chi,Wu Shih-Hung,et al.Integrating Linguistic Knowledge into a Conditional Random Field Framework to Identify Biomedical Named Entities[J].Expert Systems with Applications,2006,30(1):117-128.
8Sun ChengJie,Guan Yi,Wang XiaoLong,et al.Biomedical named entities recognition using conditional random fields model[J].Lecture notes in computer science,2006,4223:1279-1288.
9Salem ABM.Case based reasoning technology for medical diagnosis[J].World Academy of Science,Engineering and Technology,2007,25:9-13.
10Rossille D,Laurentc JF,Burgun A.Modelling a decisionsupport system for oncology using rule-based and case-based reasoning methodologies[J].International Journal of Medical Informatics,2005,74:299-306.

共引文献137

1窦一田,尚懿纯,张秀华,林燕,梁栋,裴雅萱.专业型研究生中医肾病学临床教学探析[J].亚太传统医药,2021,17(1):219-221. 被引量：1
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
3吴文昊,李占强,席现国,胥婷.数据安全闭环管理在国家健康医疗大数据中心(北方)的实践[J].中国数字医学,2021,16(7):13-17. 被引量：7
4郭万里.区域脑卒中筛查系统的建设和应用实践[J].中国数字医学,2021,16(6):118-120. 被引量：2
5刘龙航,赵铁军.融合知识的中文医疗实体识别模型[J].智能计算机与应用,2021,11(3):94-97.
6王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究[J].图书情报工作,2019,63(2):34-42. 被引量：18
7杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
8许华,刘茂福,姜丽,顾进广.基于语言规则的病症菌实体抽取[J].武汉大学学报（理学版）,2015,61(2):151-155. 被引量：8
9冯东雷,高昭昇,李翠华,张赛赛,刘艳.匿名化服务在区域卫生信息平台中的应用研究[J].中国数字医学,2015,10(11):80-82.
10苏娅,刘杰,黄亚楼.在线医疗文本中的实体识别研究[J].北京大学学报（自然科学版）,2016,52(1):1-9. 被引量：17

同被引文献26

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
2刘苏文,邵一帆,钱龙华.基于联合学习的生物医学因果关系抽取[J].中文信息学报,2020,34(4):60-68. 被引量：8
3陈锦,常致全,许军.基于HMM的生物医学命名实体的识别与分类[J].计算机时代,2006(10):40-42. 被引量：10
4张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：33
5孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：99
6韩春燕,刘玉娇,琚生根,李若晨,苏翀.中文微博命名体识别[J].四川大学学报（自然科学版）,2015,52(3):511-516. 被引量：9
7隋明爽,崔雷.结合多种特征的CRF模型用于化学物质–疾病命名实体识别[J].现代图书情报技术,2016(10):91-97. 被引量：9
8孙晓,孙重远,任福继.基于深层条件随机场的生物医学命名实体识别[J].模式识别与人工智能,2016,29(11):997-1008. 被引量：18
9程健一,关毅,何彬.基于SVM和CRF双层分类器的英文电子病历去隐私化[J].智能计算机与应用,2016,6(6):17-19. 被引量：9
10张祥伟,李智.基于多特征融合的中文电子病历命名实体识别[J].软件导刊,2017,16(2):128-131. 被引量：14

引证文献3

1曹依依,周应华,申发海,李智星.基于CNN-CRF的中文电子病历命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2019,31(6):869-875. 被引量：26
2徐丽娜,李燕,钟昕妤,陈月月,帅亚琦.基于Bert的中医方剂文本命名实体识别[J].医学信息,2023,36(4):32-37. 被引量：1
3孙雄韬,刘干,李怡然,张舒越,文语欣.文本隐私感知与保护研究综述[J].网络空间安全科学学报,2023,1(2):2-21.

二级引证文献27

1刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
2冯云霞,衣鹏,韩正亮,宋波.基于CNN-BGRU-CRF的中文电子病历实体抽取方法[J].计算机与现代化,2020(11):60-64. 被引量：5
3赵鹏飞,赵春江,吴华瑞,王维.基于注意力机制的农业文本命名实体识别[J].农业机械学报,2021,52(1):185-192. 被引量：30
4刘浏,秦天允,王东波.非物质文化遗产传统音乐术语自动抽取[J].数据分析与知识发现,2020,4(12):68-75. 被引量：16
5廖开际,邹珂欣,席运江.一种在线医疗社区问答文本实体识别方法——基于卷积神经网络和双向长短期记忆神经网络[J].科技管理研究,2021,41(8):173-179. 被引量：4
6曹学飞,牛倩,王瑞波,王钰,李济洪.基于共现的汉语词的分布表示学习与改进[J].计算机科学,2021,48(6):222-226. 被引量：1
7邢照野,刘晓群,刘雅军,孙佩杰.基于机器学习的文本自动归类系统算法研究[J].新一代信息技术,2021,4(12):24-31.
8秦秋莉,郭煜,赵爽,姜勇.基于命名实体识别和图嵌入技术的脑血管疾病相似病历研究[J].信息系统学报,2021,15(2):77-93.
9赵梓博,王昊,邓三鸿,张海潮.文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例[J].情报理论与实践,2021,44(10):8-17. 被引量：1
10倪健,陈鹏兴.基于Bert-BiLSTM-Attention的互联网金融实体识别方法[J].信息与电脑,2021,33(20):58-61. 被引量：1

1潘福堂.自由基的基础与临床专辑（二）自由基所致疾病的一般性预防[J].日本医学介绍,1994,15(8):357-358.
2曾文星.讲究婚姻中的心理卫生[J].心理与健康,2003(6):40-43.
3王莎,胡广书.基于小波变换的T波检测算法研究[J].北京生物医学工程,2009,28(1):69-73. 被引量：4
4王建国,江丽君.临床信息[J].生物制品快讯,2003(7):23-24.
5夏慧新,陈启航,付俐,张彩萍,江明娟.马鞍山市卫生信息平台的设计与应用[J].中国卫生信息管理杂志,2015,12(5):481-486. 被引量：2
6临床信息4[J].生物制品快讯,2003(2):23-23.
7许涛,杨子立,陈闽峰,袁克虹.基于三维CTA血管拉直的腹主动脉瘤自动定位方法[J].中国医学物理学杂志,2013,30(5):4396-4400. 被引量：2
8张立群,孙照刚,高孟秋,马丽萍,吴晓光,刘菲.肺结核患者外周血单核细胞中差异表达miRNA的筛选[J].中国防痨杂志,2011,33(11):729-733. 被引量：10
9涂岳文,陈杭,付秀泉,李顶立,黄超,汤亚伟,叶树明.基于心搏聚类的Holter运动伪差段快速识别算法[J].浙江大学学报（工学版）,2012,46(6):1148-1156. 被引量：1
10高昭昇,冯东雷,徐静,张赛赛,刘艳.区域卫生信息平台隐私泄露应急预案研究[J].中国数字医学,2016,11(5):50-52. 被引量：2

中国卫生信息管理杂志

2017年第2期

浏览历史

内容加载中请稍等...

基于条件随机域的临床文本去识别研究被引量：3

参考文献4

二级参考文献25

共引文献137

同被引文献26

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的临床文本去识别研究 被引量：3

参考文献4

二级参考文献25

共引文献137

同被引文献26

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的临床文本去识别研究被引量：3