摘要
结合理论和实验比较分析用于词形规范的词形还原方法和工具。归纳现有词形还原方法的主要分类,分析各类方法的特点和不足。介绍7种词形还原实现工具,并从其实现原理、使用的词性标注器、词典、开发语言、处理的语种、是否具有拼写检查功能等方面比较分析各工具的特点。选取其中5种工具,利用WordSimith Tools的标准数据进行词形还原实验。结合实验结果分析各工具的优劣,发现Specialist NLP Tools的词形还原工具具有较好的词形还原处理效果,为研究者选择适当的词形还原方法和工具提供参考。
Combining theory with practice, this paper compares the methods and tools for lemmatization in word normalization. It summarizes the categories of lemmatization methods and analyses their features and disadvantages. Then it separately compares seven tools from aspects as the principle, POS tagger, lexicon, programming language, language, spell checker. It takes experiments with the datasets from WordSimith Tools to evaluate five lemmatizers. By comparing the results, it finds that the Specialist NLP Tools has a better effect than others . This paper provides an assistance for the study in choosing the appropriate method and tool for lemmatization.
出处
《现代图书情报技术》
CSSCI
北大核心
2012年第3期27-34,共8页
New Technology of Library and Information Service
基金
国家"十二五"科技支撑计划基金项目"科技知识组织体系的协同工作系统和辅助工具开发"(项目编号:2011BAH10B02)
中国医学科学院医学信息研究所中央级公益性科研院所基本科研业务费课题"基于语言网络的医学文本表示模型构建方法研究"(项目编号:11R0209)的研究成果之一