-
题名基于后缀数组的分词技术
- 1
-
-
作者
任雪利
代余彪
-
机构
曲靖师范学院计算机科学与工程学院
-
出处
《计算机系统应用》
2010年第8期229-230,211,共3页
-
基金
曲靖师范学院基金(2008QN007)
云南省教育厅研究课题(09C0188)
-
文摘
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的识别率,建立待分词内容的后缀数组,然后计算其公共前缀共同出现的次数,采用阈值对其进行过滤筛选出候选词语,实验结果表明,该方法在新词识别方面有一定的优势。
-
关键词
后缀数组
分词
公共前缀长度
-
Keywords
suffix array
word segment
LCP
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-