-
题名俄语词形规范化方法与工具研究综述
- 1
-
-
作者
唐菊香
于娟
刘建国
-
机构
福州大学经济与管理学院
上海财经大学会计与财务研究院
-
出处
《情报探索》
2021年第3期121-127,共7页
-
基金
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
-
文摘
[目的/意义]旨在为俄语词形规范化方法研究和应用提供参考。[方法/过程]运用文献研究法和比较研究法对已有俄语词形规范化方法进行评述,并分析总结俄语词形还原和词干提取两类方法工具的特点。[结果/结论]已有方法能够较好地解决俄语词形规范化的问题,但准确率仍需提高。
-
关键词
俄语文本挖掘
词形规范化
词形还原
词干提取
-
Keywords
Russian text mining
word-form normalization
lemmatization
stemming
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名词形还原方法及实现工具比较分析
被引量:12
- 2
-
-
作者
吴思竹
钱庆
胡铁军
李丹亚
李军莲
洪娜
-
机构
中国医学科学院医学信息研究所
-
出处
《现代图书情报技术》
CSSCI
北大核心
2012年第3期27-34,共8页
-
基金
国家"十二五"科技支撑计划基金项目"科技知识组织体系的协同工作系统和辅助工具开发"(项目编号:2011BAH10B02)
中国医学科学院医学信息研究所中央级公益性科研院所基本科研业务费课题"基于语言网络的医学文本表示模型构建方法研究"(项目编号:11R0209)的研究成果之一
-
文摘
结合理论和实验比较分析用于词形规范的词形还原方法和工具。归纳现有词形还原方法的主要分类,分析各类方法的特点和不足。介绍7种词形还原实现工具,并从其实现原理、使用的词性标注器、词典、开发语言、处理的语种、是否具有拼写检查功能等方面比较分析各工具的特点。选取其中5种工具,利用WordSimith Tools的标准数据进行词形还原实验。结合实验结果分析各工具的优劣,发现Specialist NLP Tools的词形还原工具具有较好的词形还原处理效果,为研究者选择适当的词形还原方法和工具提供参考。
-
关键词
词形规范化
词干提取
词形还原
词元
-
Keywords
Word normalization Stemming Lemmatization Lemma
-
分类号
G353.2
[文化科学—情报学]
-
-
题名词干提取方法及工具的对比分析研究
被引量:13
- 3
-
-
作者
吴思竹
钱庆
胡铁军
李丹亚
李军莲
洪娜
-
机构
中国医学科学院医学信息研究所
-
出处
《图书情报工作》
CSSCI
北大核心
2012年第15期109-115,142,共8页
-
基金
国家"十二五"科技支撑计划项目"科技知识组织体系的协同工作系统和辅助工具开发"(项目编号:2011BAH10B02)
中国医学科学院医学信息研究所基本科研业务费课题"基于语言网络的医学文本表示模型构建方法研究"(项目编号:11R0209)研究成果之一
-
文摘
首先,论述词干提取和语言形态学的关系。其次,对词干提取的主要算法和相关技术进行详细分类。而后,对词干提取方法的主要特点进行分析并对各类方法的优点、缺点和特点进行对比,并归纳实现词干提取功能的工具及其特点。最后,对词干提取研究的现有问题和未来发展趋势进行探讨。
-
关键词
词形规范化
词干提取
波特算法
语言形态学
-
Keywords
word normalization stemming Porter stemmer morphology
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-