期刊文献+

通过确定邻近区域改进KNN文本分类 被引量:1

Improving KNN for Text Classification by Adjacent Domain Determination
下载PDF
导出
摘要 文本分类技术已经成为处理和组织文本信息的关键技术之一。KNN算法是文本分类中一种实用的方法。它在每次分类的过程中都要计算测试集中未标记文本与训练集合中所有样本的相似度(距离),然后通过排序来找到K个最近邻样本,耗时较长,不利于Web上实时在线分类等应用。提出了一种确定邻近区域来加快搜寻K个最近邻的方法。试验证明,改进后的KNN算法较经典KNN算法在分类过程中速度有所提升,并且当训练文本数量增加时,在分类时间上表现相对更稳定。
出处 《计算机系统应用》 2009年第11期56-59,共4页 Computer Systems & Applications
基金 重庆市自然科学基金(CSTC)(2007BB6118)
  • 相关文献

参考文献7

二级参考文献39

  • 1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量:21
  • 2柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量:32
  • 3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:386
  • 4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量:121
  • 5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
  • 6Yang Y, Liu X. A re-examination of text categorization methods [ C ]//The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM Press, 1999.
  • 7Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34( 1 ) : 1-47.
  • 8ladenic D M,Grobelnik M.Feature selection for unbalanced class distribution and Naive Bayes[C]//Proc of the 16th Int'l Conf on Machine Learning( ICML' 99 ).San Francisco : Morgan Kaufmann Publishers, 1999 . 258-267.
  • 9Yang Y,Pedersen J P.A comparative study on feature selection in text categorization[C]//Proc of the 14th Int'l Conf on Machine Learning(ICML' 97 ), 1997.412-420.
  • 10LIBSVM-A library for support vector machines[EB/OL].http://www. csie.ntu.edu.tw/-cjlin/libsvm/.

共引文献232

同被引文献8

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部