-
题名中医医案文献自动分词研究
被引量:9
- 1
-
-
作者
张帆
刘晓峰
孙燕
-
机构
北京中医药大学
-
出处
《中国中医药信息杂志》
CAS
CSCD
2015年第2期38-41,共4页
-
基金
北京中医药大学自主选题项目(2013-JYBZZ-JS-124)
-
文摘
目的研究适用于中医医案文献自动分词的方案。方法使用层叠隐马模型作为分词模型,建立相关中医领域词典及测试语料库,对语料库中古代医案文献和现代医案文献各300篇进行分词及评测。结果在未使用中医领域词典时,两类医案文献分词准确率均为75%左右;使用中医领域词典后,古代医案文献的分词准确率达到90.73%,现代医案文献的分词准确率达到95.66%。在未使用中医领域词典时,词性标注准确率古代医案文献为56.74%,现代医案文献为64.81%;使用中医领域词典后,现代医案文献为91.45%,明显高于古代医案文献的78.47%。结论现有分词方案初步解决了中医医案文献的分词问题,对现代医案文献的词性标注也基本正确,但古代医案文献的词性标注影响因素较多,还需进一步研究。
-
关键词
中医医案文献
自动分词
中医领域词典
层叠隐马模型
词性标注
-
Keywords
traditional Chinese medical record literature
automatic word segmentation
dictionary of traditional Chinese medicine
Hierarchical Hidden Markov Model
part-of-speechtagging
-
分类号
R2-05
[医药卫生—中医学]
-