-
题名面向中文电子病历的词法语料标注研究
被引量:9
- 1
-
-
作者
蒋志鹏
赵芳芳
关毅
杨锦锋
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2014年第6期609-615,共7页
-
基金
国家自然科学基金(60975077)资助项目
-
文摘
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
-
关键词
中文电子病历(CEMR)
词性标注
标注一致性
语料差异
错误分析
-
Keywords
Chinese electronic medical record (CEMR), part-of-speech tagging, annotation consistency, statistical lexical differences, error analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-