摘要
中文电子病历中存在大量非结构化的文本信息,其中的医学命名实体识别是生物医学领域知识组织和服务的基础。文章首先分析了中文电子病历特征的词语、词性、语素和词的组成等语法特征,以及HowNet语义特征;然后,运用CRF模型,提出了基于CRF医学命名实体的识别方案;最后,实验表明融合HowNet的中文电子病历命名实体识别方法具有较好的效果。
Named entities recognition of Chinese electronic medical records(EMR),which include a lot of unstructured text information,is the basis of medical information organization and service.Firstly,based on the characteristics of Chinese EMR,this paper analyzes the grammatical features of words,part of speech,morpheme and word structure,as well as the semantic features of HowNet.Then,a recognition scheme of medical named entity based on CRF is proposed.Finally,the experimental results show that medical named entity recognition method of the Chinese EMR based on HowNet is effective.
出处
《情报理论与实践》
CSSCI
北大核心
2021年第10期18-26,共9页
Information Studies:Theory & Application
基金
国家社会科学基金一般项目“基于语义网的医疗健康信息组织与服务模式研究”(项目编号:19BTQ076)
国家社会科学基金重点项目“大数据环境下领域知识加工与组织模式研究”(项目编号:20ATQ006)
四川省高校人文社会科学重点研究基地--四川学术成果分析与应用研究中心重点项目“健康数据的知识库构建及服务模式研究”(项目编号:SCAA17-003)的阶段性成果。