期刊文献+

基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3

N-Gram Based Language Identification for Mongolian Text
下载PDF
导出
摘要 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 With the rapid increasing of Mongolian texts on the Internet,it is of practical significance to identify them before further processing.This paper proposes an average distance recognition algorithm based on N-Gram model,and an experimental platform is established.Experimental results show that the presented algorithm can identify Mongolian text from Chinese,English,or even mixed-language texts,with an accuracy of above 99.5%.
出处 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金(61363052) 内蒙古自治区自然科学基金(2014MS0608) 内蒙古自治区高等学校科学研究项目(NJZY12052) 内蒙古工业大学重点基金(ZD201118)
关键词 语种识别 N-GRAM模型 平均距离识别算法 蒙古语文本 language identification N-Gram model average distance recognition algorithm Mongolian text
  • 相关文献

参考文献1

  • 1Cavnar W B,Trenkle J M.N-gram-based text categorization. Ann Arbor MI . 1994

共引文献1

同被引文献11

引证文献3

二级引证文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部