基于语义相似度计算的临床诊断自动编码算法研究被引量：11

Algorithmic Research on Automatic Coding of Clinical Diagnoses Based on Semantic Similarity Calculation

下载PDF

导出

摘要提出一种为中文临床诊断自动进行ICD-10编码的算法,利用分布式语义相似度计算方法计算文本语义相似度,考虑到中文的语言特点,不仅基于词语构建词向量,还基于汉字构建词向量,测试二者对查准率和查全率的影响。结果显示该算法在测试集上获得较高的准确率。 The paper proposes an algorithm which can implement ICD-10 coding automatically for clinical diagnoses in Chinese and calculate the semantic similarity of texts by the calculation method of distributed semantic similarity.In consideration to the linguistic features of Chinese,it constructs term vectors based on both words and Chinese characters and tests their influences on the precision ratio and recall ration.The results indicate that this algorithm has a higher precision ration in the test set.

作者宁温馨于明

机构地区清华大学工业工程系

出处《医学信息学杂志》 CAS 2016年第2期52-56,共5页 Journal of Medical Informatics

关键词自动编码语义相似度分布式语义 ICD-10 Automated code assignment Semantic similarity Distributional semantics ICD-10

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] R-05 [医药卫生]

引文网络
相关文献

参考文献17

1Homberger J. Electronic Health Records : a guide for clini-cians and administrators [J]. JAMA, 2009,301 ( 1 ):110-110.
2Meystre S M,Savova G K, Kipper - Schuler K C,et al. Ex-tracting Information from Textual Documents in the ElectronicHealth Record : a review of recent research [J]. Yearbook ofMedical Informatics, 2008, (35) : 128 -144.
3OMalley K J, Cook K F, Price M D,et al. Measuring Diag-noses :ICD code accuracy [ J ]. Health Services Research,2005,40: 1620-1639.
4Pereira S, N6v6ol A, Massari P, et al. Construction of aSemi - automated ICD ~ 10 Coding Help System to OptimizeMedical and Economic Coding [ C]. MIE. 2006 : 845 -850.
5凌红,陈龙.医院信息系统发展案例分析[J].医学信息学杂志,2013,34(12):16-20. 被引量：3
6贾末,王永刚,沈韬,张颖琦.医院信息系统性能优化策略探讨[J].医学信息学杂志,2014,35(9):28-31. 被引量：7
7苏韶生,杨勇,何远源,程敏婷,张淑娟.电子病历文档管理系统设计与关键问题实现[J].医学信息学杂志,2015,36(1):23-27. 被引量：4
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
9Pakhomov S V S, Buntrock J D,Chute C G. Automating theAssignment of Diagnosis Codes to Patient Encounters UsingExample - based and machine learning techniques [ J ].Journal of the American Medical Informatics Association,2006,13 (5) : 516 -525.
10Mihalcea R, Corley C, Strapparava C. Corpus - based andKnowledge - based measures of text semantic similarity[C]. In: Proceedings of the 21st National Conference onArtificial Intelligence. 2006, 6: 775 -780.

二级参考文献55

1李全凯.HIS数据库性能优化分析[J].医学信息（西安上半月）,2005,18(10):1241-1243. 被引量：4
2周鸾杰,宋传军,周宝林.从SQL优化角度对医院信息系统进行优化[J].医疗设备信息,2007,22(5):23-25. 被引量：6
3H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
4Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
5S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
6J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
7Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
8Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
9Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
10J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998

共引文献207

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7牛玉兰,张莉萍,盖红卫,程桂芳.医院图书馆OA系统管理的应用及对策[J].中国中医药图书情报杂志,2014,38(3):32-33. 被引量：3
8李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：153

同被引文献85

1韩振桥,付立军,刘俊明,郭宇捷,唐珂轲,梁锐.结合RoBERTa与多策略召回的医学术语标准化[J].计算机系统应用,2022,31(10):245-253. 被引量：2
2许奎,冷艳梅.新时代中国特色国家审计项目组织管理影响因素研究——基于访谈和问卷的调查分析[J].审计研究,2022(5):49-55. 被引量：2
3李煜,徐安琪.普通人的爱情观研究——兼开放式问题的量化尝试[J].社会科学,2007(7):132-141. 被引量：12
4王俊芳,时俊卿.问卷调查的类别、优缺点及实施[J].教育科学研究,2004(9):58-59. 被引量：3
5武庆玲.定量项目问卷的编码要求及原则[J].市场研究,2006(5):44-47. 被引量：1
6肖富群.调查研究中开放式问题的编码[J].统计与决策,2007,23(5):73-74. 被引量：3
7潘绥铭,黄盈盈,王东.问卷调查：设置“开放题”是一种失误[J].社会科学研究,2008(3):81-85. 被引量：10
8崔雷,刘伟,闫雷,张晗,侯跃芳,黄莹娜,张浩.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75. 被引量：542
9刘泉凤.一种基于文本聚类的开放式信息自动归类方法[J].情报杂志,2009,28(6):177-180. 被引量：1
10康等银.关于调查问卷设计应注意几个问题的研究[J].科技信息,2009(23). 被引量：30

引证文献11

1汤洁芬.以ICD-10为基础的诊断智能自动编码系统在临床中的应用分析[J].中国实用医药,2017,12(11):195-196. 被引量：9
2秦宇辰,吴骋,王志勇,贺佳.计算机辅助医疗信息标准化编码的现况及发展[J].中国数字医学,2018,13(1):9-12. 被引量：7
3刘克新,郑琳,王莹,林海丽,范炜然,柏朝青,李萌,安素珍.基于大数据技术的病案智能编码系统的功能设计与应用[J].中国病案,2018,19(8):46-48. 被引量：19
4成诚,黄昊,欧东.疾病诊断自动编码系统的设计与应用[J].中国病案,2018,19(9):35-37. 被引量：7
5刘潇霞,杨媛媛,侯飞,李林涛,比确子拉,李晓喻,刘罡.国际疾病分类(肿瘤)智能编码体系及质量评价系统设计[J].肿瘤预防与治疗,2020,33(2):159-163. 被引量：8
6张润彤,陈东华,赵红梅,朱晓敏.基于中文语义分析的计算机辅助ICD-11编码方法研究[J].数据分析与知识发现,2020,4(4):44-55. 被引量：1
7杨少宜,郑筠.基于文献计量的我国国际疾病分类法研究现状分析[J].中国病案,2020,21(12):1-5.
8潘劲,龚巍巍,费方荣,王蒙,周晓燕,胡如英,钟节鸣.文本分析联合支持向量机的肿瘤ICD-O-3病理形态学自动分类效果评价[J].预防医学,2021,33(3):255-258.
9孙曰君,刘智强,杨志豪,林鸿飞.基于BERT的临床术语标准化[J].中文信息学报,2021,35(4):75-82. 被引量：8
10曹天甲,程龙龙,李世锋,曹琉,崔丙剑,倪广健.面向中文临床术语标准化的ESim-SimCSE融合算法[J].天津大学学报（自然科学与工程技术版）,2024,57(7):751-758.

二级引证文献50

1洪娜,刘飞,张梦阳,张渝翔,刘超,张富博,王芳,唐燕平,刘欢妹,陈萌.OHDSI通用数据模型在肿瘤大数据中的应用探索[J].中国数字医学,2021,16(11):24-28. 被引量：6
2王芸,刘正荣,严华倩.建立审核规则库以提升病案首页质量的实践探索[J].中国数字医学,2021,16(10):41-44. 被引量：8
3韩振桥,付立军,刘俊明,郭宇捷,唐珂轲,梁锐.结合RoBERTa与多策略召回的医学术语标准化[J].计算机系统应用,2022,31(10):245-253. 被引量：2
4刘栋梁,张嵩,张宁康,高洋,林海波.基于BERT的航天术语标准化[J].南京航空航天大学学报,2022,54(S01):109-114. 被引量：2
5姜京池,侯俊屹,李雪,关毅,关昌赫.基于协同集成学习的医疗实体标准化方法[J].中文信息学报,2023,37(3):135-142. 被引量：1
6王艳,王隽巍.基于DRGs的病案编码质量监测与分析[J].世界最新医学信息文摘,2020(91):214-215.
7赵玉晖.我国医学信息标准化建设存在的主要问题及建议分析[J].医学信息,2018,31(19):29-30. 被引量：3
8成诚,黄昊,欧东.疾病诊断自动编码系统的设计与应用[J].中国病案,2018,19(9):35-37. 被引量：7
9龙思哲,林琳,刘洋,温庆,张武军.医院管理与决策支持系统信息标准化改造策略探讨[J].医学信息学杂志,2018,39(10):60-62. 被引量：3
10唐仕超,于观贞,姜磊.人工智能技术在基于电子病历研究中的应用与展望[J].第二军医大学学报,2018,39(8):928-934. 被引量：9

1朱康玲.同义词的获取对医学科技查新查全率和查准率的影响[J].中华医学图书情报杂志,2012,21(3):78-80. 被引量：6
2本刊编辑部.关键词的标引方法[J].中华危重症医学杂志（电子版）,2009,2(1):31-31.
3柯兴勤.心理学文献国际联机检索[J].心理科学进展,1988(3):91-93.
4李美花,李永强.医学论文关键词的正确标引[J].延边大学医学学报,2005,28(3):231-233.
5党静萍,韩维栋.论医学科研论文的语言特点[J].中华医学写作杂志,2001,8(11):1223-1225.
6呼格吉乐巴图,宝音图.《古代蒙古灸》语言特点及其价值[J].中国蒙医药（蒙）,2015,10(10):92-96.
7陈国琪.WinSPIRS-MEDLINE的检索策略和调整[J].中华医学图书情报杂志,2000,10(z1):72-73.
8钟伟,房起环,边莉,马骏,史本玲,刘翠玲,汤伟.浅谈医学科研论文关键词的标引[J].中国民族民间医药,2009,18(17):61-62. 被引量：1
9邓品山,王发生,方国辉.对提高医学文献查全率和查准率的探讨[J].医学信息学杂志,1991,18(4):17-22. 被引量：2
10张素萍.基于语义的电子健康档案信息组织模式[J].医学信息学杂志,2015,36(9):65-68. 被引量：2

医学信息学杂志

2016年第2期

浏览历史

内容加载中请稍等...

基于语义相似度计算的临床诊断自动编码算法研究被引量：11

参考文献17

二级参考文献55

共引文献207

同被引文献85

引证文献11

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于语义相似度计算的临床诊断自动编码算法研究 被引量：11

参考文献17

二级参考文献55

共引文献207

同被引文献85

引证文献11

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于语义相似度计算的临床诊断自动编码算法研究被引量：11