-
题名中文病理文本的结构化处理方法研究
被引量:9
- 1
-
-
作者
陈德华
冯洁莹
乐嘉锦
潘乔
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2016年第10期272-276,共5页
-
基金
上海市科委科技创新行动计划:基于"互联网+"技术的多病种多中心临床大数据行业应用(15511106900)资助
-
文摘
病理文本作为一类重要的非结构化临床文档,对临床诊断至关重要。针对具体的中文病理文本数据,提出一种简单有效结构化处理方法。首先对中文病理历史文本数据进行预处理,包括数据清洗、短句切分及主干提取等步骤,从中提取出各个样本所对应的文本信息;然后通过短句聚类和统计参数筛选实现样本描述模板的提取;最后利用模板对病理文本进行即时结构化处理,得到最终的结构化处理结果。实验证明,该方法对同类文本可以达到很好的结构化效果;同时提取的模板会被定期优化以适应最新的数据结构化需求。
-
关键词
中文病理文本
结构化
短句聚类
模板提取
-
Keywords
Chinese pathological text,Structuring,Clauses clustering,Template extraction
-
分类号
TP249
[自动化与计算机技术—检测技术与自动化装置]
-