摘要
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。
With the rapid increasing of Mongolian texts on the Internet,it is of practical significance to identify them before further processing.This paper proposes an average distance recognition algorithm based on N-Gram model,and an experimental platform is established.Experimental results show that the presented algorithm can identify Mongolian text from Chinese,English,or even mixed-language texts,with an accuracy of above 99.5%.
出处
《中文信息学报》
CSCD
北大核心
2016年第1期133-139,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金(61363052)
内蒙古自治区自然科学基金(2014MS0608)
内蒙古自治区高等学校科学研究项目(NJZY12052)
内蒙古工业大学重点基金(ZD201118)