分级聚类与平面划分结合方法在网页分类中的应用被引量：2

Combinations of Layered Clustering&Plan Partition and Its Applica tion in Web Page Classification

下载PDF

导出

摘要文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳。文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法。文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果。 This paper proposes combination of layered clustering&plans partition and its application in Web pages classification.In this paper the feature distribution and complexity of samples in Web pages classification are described.But for layered clustering method,layered nesting class can be generated and provided with upper nicety.By the way,layered clustering methods have more high computing complexity and are not suiting to large number of samples.K-mean methods are usually sensitive to initial clustering centers and propose bad results for irregular distributed samples.In the paper,firstly,part samples are used in layered clustering to generate original clustering centers.Secondly,K-mean methods are loaded continuing to classify the whole samples set.This strategy can avoid computing complexity of layered clustering methods and also take full advantage of fast classifying of K-mean method.On the other hand,this strategy imposes that layered clustering methods have high nicety and provide suitable initial clustering centers.Lastly,this paper provides Web pages clustering experiments for K -mean methods and combination of layered clustering&plans partition.

作者王丽侠房福亭

机构地区浙江师范大学信息科学与工程学院菏泽市牡丹区财政局

出处《计算机工程与应用》 CSCD 北大核心 2004年第35期139-141,204,共4页 Computer Engineering and Applications

基金浙江省教育厅科研项目(编号:20030717) 浙江师范大学计算机应用校级重点学科资助

关键词文本聚类层次聚类 K-均值机器学习计算复杂度分级聚类平面划分网页分类 text clustering,layered clustering,K-mean,machine learning,computing complexity

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Lewis D D,Schapore R E,Callan JP et al.Training algorithms for linear text classifiers[C].In:Proc Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich, 1996: 298～306
2Cohen W W,Singer Y.Context-sensitive learning methods for text categorization[C].In:Proc Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,1996:307～315
3Lin Shian-Hua.Extracting classification knowledge of internet documents with mining term associations:A sementic approach[C].In:Proc International ACM SIGIR Conference on Research and Development in Information Retrieval ,Melbourne, 1998:241～249
4范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
5李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
6Zhang Yizhong,Zhao Mingsheng,Wu Youshou.The automatic classification of web pages based on neural networks[C].In:Neural information processing, ICONIP2001 Proceedings,Shanghai,China,2001;2:570～575

二级参考文献2

1Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页
2李晓黎,史忠植.用数据采掘方法获取汉语词性标注规则[J].计算机研究与发展,2000,37(12):1409-1414. 被引量：10

共引文献150

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
3童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
4郑松峰,徐维朴,刘维湘,郑南宁.基于无监督聚类的约简支撑向量机[J].计算机工程与应用,2004,40(14):74-76. 被引量：1
5张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
6贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
7江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
8张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
9刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
10包骏杰,马燕.一种基于互联网智能元搜索引擎的研究[J].计算机科学,2004,31(6):103-105. 被引量：1

同被引文献18

1厉剑,杨玮龙,李攀.基于DSP并行结构的二叉树SVM多分类器[J].舰船电子工程,2007,27(1):110-113. 被引量：1
2李慧,刘东苏,任志纯.文献聚类技术及其评价函数[J].情报杂志,2004,23(7):17-18. 被引量：4
3唐发明,王仲东,陈绵云.一种新的二叉树多类支持向量机算法[J].计算机工程与应用,2005,41(7):24-26. 被引量：50
4王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10
5唐发明,王仲东,陈绵云.支持向量机多类分类算法研究[J].控制与决策,2005,20(7):746-749. 被引量：90
6张国云,章兢.一种新的分裂层次聚类SVM多值分类器[J].控制与决策,2005,20(8):931-934. 被引量：9
7孟媛媛,刘希玉.一种新的基于二叉树的SVM多类分类方法[J].计算机应用,2005,25(11):2653-2654. 被引量：42
8赵晖,荣莉莉,李晓.一种设计层次支持向量机多类分类器的新方法[J].计算机应用研究,2006,23(6):34-37. 被引量：20
9黄媛婕,王从庆.基于支持向量机的机器人多指手预抓取模式分类[J].机械工程与自动化,2006(4):94-96. 被引量：3
10应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28

引证文献2

1吕永波,杨静,万猛,任远,马继辉.基于Agent的Web知识发现模型及应用研究[J].中国软科学,2006(8):141-146. 被引量：2
2王晓锋,秦玉平.基于二叉树的SVM多类分类算法研究[J].湖南工程学院学报（自然科学版）,2008,18(3):68-70. 被引量：6

二级引证文献8

1李建锋.基于BP算法的Agent个性化Web检索系统[J].重庆工商大学学报（自然科学版）,2007,24(3):246-248. 被引量：1
2汪全莉.基于Agent的数据挖掘与知识发现[J].情报探索,2008(4):68-69.
3朱学冬,胡平.基于安全的多故障分类器设计[J].江南大学学报（自然科学版）,2009,8(3):288-291.
4范柏超,王建宇,薄煜明.结合特征选择的二叉树SVM多分类算法[J].计算机工程与设计,2010,31(12):2823-2825. 被引量：11
5胡洋,吴黎慧,高磊,蒲南江.基于SVM的语音情感识别研究[J].电子测试,2011,22(9):25-28. 被引量：1
6秦锋,杨帆,程泽凯,刘牛.BO-AUC多类分类评估方法[J].计算机工程与应用,2012,48(5):156-158. 被引量：2
7焦斌亮,范成龙,王朝晖.基于二叉划分树的多维尺度分析图像分类算法[J].计算机工程与应用,2015,51(15):179-182. 被引量：3
8林志垒,晏路明.高光谱影像的BDT-SVM地物分类算法与应用[J].遥感技术与应用,2016,31(1):177-185. 被引量：1

1张帆,方如明,蔡健荣.标准烟叶数据库的图像检索[J].农业机械学报,2001,32(1):66-68. 被引量：13
2胡康达,符红光,孔祥振.分级聚类支持向量机在中医舌像分类中的应用[J].计算机应用,2010,30(12):272-273. 被引量：3
3刘立平,易华容,何文斌.一种基于向量空间模型的文本聚类方法[J].株洲师范高等专科学校学报,2004,9(5):23-25. 被引量：4
4林国平.分级与密度相结合的Web文本聚类算法[J].太原师范学院学报（自然科学版）,2008,7(3):45-48.
5刘广,陈自郁.基于PCA的高维多目标优化可视化方法[J].计算机工程,2014,40(10):192-197. 被引量：5
6刘维国,庄锦成.基于分级聚类和近邻函数准则的目标分群算法[J].舰船电子工程,2012,32(2):35-37. 被引量：5
7胡柯,唐翌.Information diffusion on adaptive network[J].Chinese Physics B,2008,17(10):3536-3541.
8淡军.基于并行二分K-means算法在异常检测中的应用[J].福建电脑,2016,32(2):104-106. 被引量：2
9郑炜,刘文兴,杨喜兵,袁绪龙,王文鹏.一种基于启发式算法的货物装载问题的研究[J].西北工业大学学报,2016,34(4):708-713. 被引量：6
10徐林章,韩臻,张艳宁.基于粗糙集和聚类的纳税属性离散化方法[J].计算机工程与应用,2008,44(29):236-238.

计算机工程与应用

2004年第35期

浏览历史

内容加载中请稍等...

分级聚类与平面划分结合方法在网页分类中的应用被引量：2

参考文献6

二级参考文献2

共引文献150

同被引文献18

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

分级聚类与平面划分结合方法在网页分类中的应用 被引量：2

参考文献6

二级参考文献2

共引文献150

同被引文献18

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

分级聚类与平面划分结合方法在网页分类中的应用被引量：2