摘要
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。
Based on the research foundlings of Chinese corpus’ extraction,this paper presents the Tibetan preprocessing method and the high-frequency words extraction algorithm,which consists of the tables of noise words,tighten-word,preprocessing method and high-frequency words extraction algorithm.Experimental results show that this algorithm achieves a precision of 86.22%,a recall of 89.79%,and an F-measure of 87.94%.
出处
《计算机工程》
CAS
CSCD
2012年第15期56-58,共3页
Computer Engineering
基金
国家自然科学基金资助项目(61163018)
国家"973"计划前期研究专项基金资助项目(2010CB334708)
国家社会科学基金资助项目(09XYY024)
青海省科技厅应用基础研究计划基金资助项目(2011-Z-755
2011-Z-753)
青海师范大学科研创新计划基金资助项目
青海师范大学中青年科研基金资助项目
关键词
信息处理
高频词
藏语抽词
自动分词
语料库
预处理
information processing
high-frequency words
Tibetan words extraction
automatic words segmentation
corpus
preprocessing