期刊文献+

基于语料库的藏语高频词抽取研究 被引量:3

Study on Corpus-based Tibetan High-frequency Words Extraction
下载PDF
导出
摘要 在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。 Based on the research foundlings of Chinese corpus’ extraction,this paper presents the Tibetan preprocessing method and the high-frequency words extraction algorithm,which consists of the tables of noise words,tighten-word,preprocessing method and high-frequency words extraction algorithm.Experimental results show that this algorithm achieves a precision of 86.22%,a recall of 89.79%,and an F-measure of 87.94%.
出处 《计算机工程》 CAS CSCD 2012年第15期56-58,共3页 Computer Engineering
基金 国家自然科学基金资助项目(61163018) 国家"973"计划前期研究专项基金资助项目(2010CB334708) 国家社会科学基金资助项目(09XYY024) 青海省科技厅应用基础研究计划基金资助项目(2011-Z-755 2011-Z-753) 青海师范大学科研创新计划基金资助项目 青海师范大学中青年科研基金资助项目
关键词 信息处理 高频词 藏语抽词 自动分词 语料库 预处理 information processing high-frequency words Tibetan words extraction automatic words segmentation corpus preprocessing
  • 相关文献

参考文献22

二级参考文献162

共引文献1009

同被引文献65

引证文献3

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部