期刊文献+

基于支持向量机与无监督聚类相结合的中文网页分类器 被引量:108

A Chinese Web Page Classifier Based on Support Vector Machine and Unsupervised Clustering
下载PDF
导出
摘要 提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 . This paper presents a new algorithm that combines Support Vector Machine (SVM) and unsupervised clustering. After analyzing the characteristics of web pages, it proposes a new vector representation of web pages and applies it to web page classification. Given a training set, the algorithm clusters positive and negative examples respectively by the unsupervised clustering algorithm (UC), which will produce a number of positive and negative centers. Then, it selects only some of the examples to input to SVM according to ISUC algorithm. At the end, it constructs a classifier through SVM learning. Any text can be classified by comparing the distance of clustering centers or by SVM. If the text nears one cluster center of a category and far away from all the cluster centers of other categories, UC can classify it rightly with high possibility, otherwise SVM is employed to decide the category it belongs. The algorithm utilizes the virtues of SVM and unsupervised clustering. The experiment shows that it not only improves training efficiency, but also has good precision.
出处 《计算机学报》 EI CSCD 北大核心 2001年第1期62-68,共7页 Chinese Journal of Computers
基金 国家自然科学基金!(6 980 30 10 ) 国家"八六三"高技术研究发展计划!(86 3-5 11-946 -0 10 )资助
关键词 支持向量机 无监督聚类 中文网页分类器 INTERNET 机器学习 support vector machine, clustering, text classification
  • 相关文献

参考文献1

二级参考文献8

  • 1白拴虎.基于统计的汉语语料库词性自动标注的研究与实现[M].北京:清华大学,1992..
  • 2刘开瑛 陈肇雄 等.语料库词类自动标注算法研究[M].北京:电子工业出版社,1992.378-386.
  • 3温锁林.中文文本兼类词的标注技术.中文信息算是国际会议论文集[M].北京,1998..
  • 4温锁林,中文信息处理国际会议论文集,1998年
  • 5Park J S,Proc of ACM SIGMOD.San Jose,1995年,175页
  • 6Liu S,Computer Processing Chinese Oriental Languages,1995年,9卷,1期,31页
  • 7刘开瑛,机器翻译研究进展,1992年,378页
  • 8白拴虎,硕士学位论文,1992年

共引文献9

同被引文献770

引证文献108

二级引证文献518

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部