基于SVM和CRF双层分类器的英文电子病历去隐私化被引量：9

De-identification on electronic medical records using a two tier classifier based on SVM and CRF

下载PDF

导出

摘要去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息。本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别。实验表明双层分类模型对于隐私信息识别是有效的,结果 F值达到0.9110。 De-identification is a shared task of the 2014 i2b2/UTHealth challenge which aimed at removing protected personal information（ PHI） from electronic medical records. This paper proposes a two tier classifier based on support vector machines（ SVMs）and conditional random fields（ CRFs）. Electronic medical records are tokenized through a preprocessing module,and four types of features are generated to train a SVM classifier to identify the boundary of PHI entities,results of the SVM classifier is used as new features to train a CRF classifier. The experiments show that the two tier classifier is effective in de-identification of electronic medical records and achieving a F-measure of 0.9110.

作者程健一关毅何彬

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2016年第6期17-19,24,共4页 Intelligent Computer and Applications

关键词电子病历去隐私化 SVM CRF electronic medical records de-identification SVM CRF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
2关延风,马骋宇.基于电子病历的医疗信息隐私保护研究[J].医学信息学杂志,2011,32(8):36-39. 被引量：18

二级参考文献150

1车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
2林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
3邢小云.美国医疗信息隐私保护立法介绍与启示[J].护理学杂志（外科版）,2007,22(5):72-74. 被引量：24
4C. Clifton, M. Kantarcioglu, J. Vaidya. Defining Privacy for Data Mining [C] //Baltimore, MD, USA: Proc. of the National Science Foundation Workshop on Next Genera- tion Data Mining, 2002:126 -133.
5中华人民共和国卫生部.基于电子病历的医院信息平台建设技术解决方案[S].2010.11.
6R. Agrawal, R. Srikant. Privacy Preserving Data Mining [C]. // Proceedings of the ACM Conference on Manage- ment of Data, 2000 : 439 - 450.
7I. Blanquer V. Hem', D. Segrelles. Enhancing Privacy and Authorization Control Scalability in the Grid through On- tologies [J].IEEE Transactions on Information Technology in Biomedicine, 2009, 13 (1) : 16 - 24.
8I. Maglogiannis, L. Kazatzopoulos, K. Delakouridis, et al. Enabling Location Privacy and Medical Data Encryption in Patient Telemonitoring Systems [ J ~. IEEE Transactions on Information Technology in Biomedicine, 2009, 13 (6) : 946 - 954.
9C. Clifton, M. Kantarcioglou, X. Lin, et al. Tools for Pri- vacy Preserving Distributed Data Mining[J]. ACM SIGK- DD Explorations, 2002, 4 (2) : 28 -34.
10G. Jagannathan, K. Pillaipakkamnatt, R. N. Wright. A New Privacy - preserving Distributed k - Clustering Algo- rithm [ C ] // Proceedings of the 2006 SIAM International Conference on Data Mining, 2006 : 492 - 496.

共引文献142

1席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：6
2姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：3
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：4
4邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：5
5昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
6吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：9
7刘冉冉.电子病历证据运用之困境与对策[J].湖北警官学院学报,2013,26(2):149-152. 被引量：4
8赵文君.医院信息的共享和隐私的保护[J].计算机光盘软件与应用,2014,17(2):188-188. 被引量：1
9徐咏军,高玉玲.电子病历中患者隐私权问题的实证研究——以W市四所三级综合性医院为例[J].中国卫生事业管理,2014,31(4):284-286. 被引量：7
10易应萍,张志强,王强.基于自然语言处理技术的医学命名实体解析研究[J].中国数字医学,2018,13(12):20-22. 被引量：2

同被引文献95

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
2张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
3袁春,文振焜,张基宏,钟玉琢.基于密码学的访问控制和加密安全数据库[J].电子学报,2006,34(11):2043-2046. 被引量：11
4李晓峰,冯登国,陈朝武,房子河.基于属性的访问控制模型[J].通信学报,2008,29(4):90-98. 被引量：80
5周楝淞,杨洁,谭平嶂,庞飞,曾梦岐.身份认证技术及其发展趋势[J].通信技术,2009,42(10):183-185. 被引量：25
6陈功,范晓薇,蒋萌,邹建东,沈宫建,姜险峰.数据挖掘与医学数据资源开发利用[J].北京生物医学工程,2010,29(3):323-328. 被引量：12
7金晓燕,雷虹,胡美华.结直肠癌患者术后化疗期间癌因性疲乏与疾病不确定感的相关性分析[J].护理管理杂志,2011,11(1):3-4. 被引量：47
8徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20. 被引量：106
9房晶,吴昊,白松林.云计算安全研究综述[J].电信科学,2011,27(4):37-42. 被引量：55
10叶枫,陈莺莺,周根贵,李昊旻,李莹.电子病历中命名实体的智能识别[J].中国生物医学工程学报,2011,30(2):256-262. 被引量：47

引证文献9

1王东波,陆昊翔,周鑫,朱丹浩.面向摘要结构功能划分的模型性能比较研究[J].图书情报工作,2018,62(12):84-90. 被引量：10
2许源,葛艳秋,王强,熊刚,易应萍.基于CRF与RUTA规则相结合的卒中入院记录医学实体识别及应用[J].中山大学学报（医学版）,2018,39(3):455-462. 被引量：12
3潘璀然,王青华,汤步洲,姜磊,黄勋,王理.基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别[J].第二军医大学学报,2019,40(5):497-506. 被引量：13
4王子牛,姜猛,高建瓴,陈娅先.基于BERT的中文命名实体识别方法[J].计算机科学,2019,46(S11):138-142. 被引量：91
5张毅,王爽胜,何彬,叶培明,李克强.基于BERT的初等数学文本命名实体识别方法[J].计算机应用,2022,42(2):433-439. 被引量：9
6生龙,张有强,吴迪.基于词汇增强的中文命名实体识别方法[J].现代电子技术,2022,45(7):157-162.
7韦彩萍,李翔,翁梦晴,吴旭生,胡庆元,刘建炜,胡德华.机器学习在电子病历中应用的可视化分析[J].中国医学物理学杂志,2023,40(4):521-528. 被引量：2
8孙雄韬,刘干,李怡然,张舒越,文语欣.文本隐私感知与保护研究综述[J].网络空间安全科学学报,2023,1(2):2-21.
9王持,李超,陈旭,洪平,郑文立,沈耀,齐开悦,过敏意.面向医疗临床科研的大数据平台[J].集成技术,2019,8(5):86-96. 被引量：6

二级引证文献142

1张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：13
2步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
3徐道柱,金澄,马超,焦洋洋,许剑.基于BERT-BiGRU-CRF与多头注意力机制的地理命名实体识别[J].网络安全与数据治理,2023,42(S01):169-173. 被引量：1
4李书琴,张明美,刘斌.融合字词语义信息的猕猴桃种植领域命名实体识别研究[J].农业机械学报,2022,53(12):323-331. 被引量：5
5李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：19
6王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.
7李楠,方丽,张逸飞.学术文本结构功能深度学习识别方法的多学科对比分析[J].现代情报,2019,39(12):55-63. 被引量：6
8曹凯迪,施识帆,王忠民.基于CRF的入院记录中医院名称实体识别及应用[J].智慧健康,2019,5(32):5-7. 被引量：3
9潘峻.基于双向LSTM的图书分类系统的设计与实现[J].信息技术,2020,44(1):67-70. 被引量：7
10靳健,张黎雪,刘馨儿,耿骞.面向用户需求分析的产品评论用例提取研究[J].情报理论与实践,2020,43(1):104-111. 被引量：5

1张亮,陆余良,刘金红.Deep Web入口探测与分类方法研究[J].计算机应用研究,2009,26(12):4697-4700. 被引量：2
2葛建新,董金祥.基于交线存储的快速实体边界生成算法[J].计算机辅助设计与图形学学报,1995,7(2):87-90.
3何鑫,王李管.一种基于八叉树的地质体三维网格剖分方法[J].金属矿山,2008,37(11):66-70. 被引量：6
4杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：126
5吕愿愿,邓永莉,刘明亮,崔宇佳,陆起涌.利用实体与依存句法结构特征的病历短文本分类方法[J].中国医疗器械杂志,2016,40(4):245-249. 被引量：2
6张应中,罗晓芳,范超.装配空间关系形式表达[J].计算机辅助设计与图形学学报,2011,23(9):1553-1560. 被引量：4
7栗伟,许洪涛,赵大哲,刘积仁.一种面向医学短文本的自适应聚类方法[J].东北大学学报（自然科学版）,2015,36(1):19-23. 被引量：3
8张思奇,周淑文,巩志国,董名垂.医疗诊断系统中的数据预处理[J].控制工程,2005,12(1):33-35.
9吴炜煜,高佐人,任爱珠.基于FDS的火场空间物理建模器研究[J].系统仿真学报,2005,17(8):1800-1802. 被引量：6
10钱孝峰.利用CAXA实体设计曲面设计功能完成复杂零件的造型[J].机械工人（冷加工）,2006(5):73-75.

智能计算机与应用

2016年第6期

浏览历史

内容加载中请稍等...

基于SVM和CRF双层分类器的英文电子病历去隐私化被引量：9

参考文献2

二级参考文献150

共引文献142

同被引文献95

引证文献9

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于SVM和CRF双层分类器的英文电子病历去隐私化 被引量：9

参考文献2

二级参考文献150

共引文献142

同被引文献95

引证文献9

二级引证文献142

相关作者

相关机构

相关主题

浏览历史

基于SVM和CRF双层分类器的英文电子病历去隐私化被引量：9