期刊文献+

基于KNN的不良文本过滤方法 被引量:7

Reactionary Text Filtering Method Based on K-Nearest Neighbor
下载PDF
导出
摘要 不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。 Reactionary text filtering is a hot research now.This paper proves that statistics χ2 has the unique advantages in the features extraction of the two types of texts based on statistics χ2 analysis.It proposes the threshold δ of the positive texts and infers the value of it in theory,and the K-Nearest Neighbor(KNN) algorithm is improved.This algorithm eliminates the uncertainty of KNN algorithm,realizes no reference,and reduces the time used in the text categorization.Experimental results show that the algorithm meets the real-time online text categorization.
出处 《计算机工程》 CAS CSCD 北大核心 2009年第24期69-71,共3页 Computer Engineering
基金 国家自然科学基金资助项目(60573130 60502011) 国家"863"计划基金资助项目(2006AA01Z435) 教育部新世纪优秀人才计划基金资助项目(NCET-04-0870)
关键词 KNN算法 不良文本过滤 χ2统计量 K-Nearest Neighbor(KNN) algorithm reactionary text filtering statistics χ2
  • 相关文献

参考文献8

二级参考文献21

共引文献62

同被引文献40

引证文献7

二级引证文献24

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部