-
题名基于NLP的中医医案文本快速结构化方法
被引量:4
- 1
-
-
作者
肖晓霞
刘明婷
杨冯天赐
刘鉴建县
杨阳
石月
-
机构
湖南中医药大学信息科学与工程学院
湖南大学信息科学与工程学院
湘潭大学化学学院
湖南泽塔科技有限公司
东北林业大学工程技术学院
北京瑞迪弘欣科贸有限公司
-
出处
《大数据》
2022年第3期128-139,共12页
-
基金
国家重点研发计划基金资助项目(No.2017YFC1703300)
湖南中医药大学信息科学与工程学院学科开放基金项目(No.2018DK02)。
-
文摘
中医医案是中医医生学习临床经验的重要文献资料,对中医医案进行结构化处理有利于采用机器学习等方法总结临床经验,加速中医传承。为了实现中医医案快速结构化,提出了一种基于自然语言处理的中医医案文本快速结构化方法。将《中国现代名中医医案精粹》作为结构化对象,采用光学字符识别技术识别医案截图的文本,同时对文本做初步结构化。构建简单症状词典,采用结合词典的改进的N-gram模型获取医案文本中的症状、体征等词,并在结构化过程中更新词典,实现了对4754份文本医案的结构化。随机选取666份医案文本对最终模型进行测试,其F1值达到82.99%。
-
关键词
N-GRAM模型
自然语言处理
中医医案
中文分词
光学字符识别
-
Keywords
N-gram model
NLP
TCM medical records
Chinese word segmentation
OCR
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-