期刊文献+

词形还原方法及实现工具比较分析 被引量:12

Contrast Analysis of Methods and Tools for Lemmatization
原文传递
导出
摘要 结合理论和实验比较分析用于词形规范的词形还原方法和工具。归纳现有词形还原方法的主要分类,分析各类方法的特点和不足。介绍7种词形还原实现工具,并从其实现原理、使用的词性标注器、词典、开发语言、处理的语种、是否具有拼写检查功能等方面比较分析各工具的特点。选取其中5种工具,利用WordSimith Tools的标准数据进行词形还原实验。结合实验结果分析各工具的优劣,发现Specialist NLP Tools的词形还原工具具有较好的词形还原处理效果,为研究者选择适当的词形还原方法和工具提供参考。 Combining theory with practice, this paper compares the methods and tools for lemmatization in word normalization. It summarizes the categories of lemmatization methods and analyses their features and disadvantages. Then it separately compares seven tools from aspects as the principle, POS tagger, lexicon, programming language, language, spell checker. It takes experiments with the datasets from WordSimith Tools to evaluate five lemmatizers. By comparing the results, it finds that the Specialist NLP Tools has a better effect than others . This paper provides an assistance for the study in choosing the appropriate method and tool for lemmatization.
出处 《现代图书情报技术》 CSSCI 北大核心 2012年第3期27-34,共8页 New Technology of Library and Information Service
基金 国家"十二五"科技支撑计划基金项目"科技知识组织体系的协同工作系统和辅助工具开发"(项目编号:2011BAH10B02) 中国医学科学院医学信息研究所中央级公益性科研院所基本科研业务费课题"基于语言网络的医学文本表示模型构建方法研究"(项目编号:11R0209)的研究成果之一
关键词 词形规范化 词干提取 词形还原 词元 Word normalization Stemming Lemmatization Lemma
  • 相关文献

同被引文献106

引证文献12

二级引证文献68

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部