-
题名多策略融合的俄语文本词语提取方法研究
- 1
-
-
作者
唐菊香
孙怿晖
廖晓
刘建国
于娟
-
机构
福州大学经济与管理学院
广东金融学院互联网金融与信息工程学院
上海财经大学会计与财务研究院
-
出处
《中国科技术语》
2021年第3期59-67,共9页
-
基金
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(71771054)。
-
文摘
俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言。随着“一带一路”倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法。然而,俄语文本挖掘方法研究目前还远未成熟,尤其是其关键基础——俄语文本词语提取的性能较低,阻碍着俄语文本建模的准确性。因此,文章提出一种多策略融合的俄语文本词语提取方法,结合俄语词性分析、语法规则和串频统计等多种方法,自动提取包含单词和短语在内的俄语词语。在联合国平行语料库和Taiga Corpus语料库上的实验结果表明,文章提出的方法在保证高召回率的同时,达到了85%以上的高准确率,显著优于常用的n-gram方法,能够为俄语文本主题发现和文本分/聚类等文本挖掘应用提供有效的词库。
-
关键词
俄语文本挖掘
词语提取
词性标注
频繁词串
-
Keywords
Russian text mining
term extraction
POS tag
frequent word-string
-
分类号
G623.35
[文化科学—教育学]
H08
[语言文字—语言学]
-
-
题名俄语词形规范化方法与工具研究综述
- 2
-
-
作者
唐菊香
于娟
刘建国
-
机构
福州大学经济与管理学院
上海财经大学会计与财务研究院
-
出处
《情报探索》
2021年第3期121-127,共7页
-
基金
国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)成果。
-
文摘
[目的/意义]旨在为俄语词形规范化方法研究和应用提供参考。[方法/过程]运用文献研究法和比较研究法对已有俄语词形规范化方法进行评述,并分析总结俄语词形还原和词干提取两类方法工具的特点。[结果/结论]已有方法能够较好地解决俄语词形规范化的问题,但准确率仍需提高。
-
关键词
俄语文本挖掘
词形规范化
词形还原
词干提取
-
Keywords
Russian text mining
word-form normalization
lemmatization
stemming
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-