基于图的Co-Training网页分类被引量：9

Graph Based Co-Training Algorithm for Web Page Classification

下载PDF

导出

摘要本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越. This paper proposes a novel inductive semi-supervised algorithm for web page classification named GCo-training,exploiting texts in web pages and hyperlinks among them.GCo-training iteratively trains two classifiers-a graph-based semi-supervised classifier based on hyperlinks among web pages and a Bayes classifier based on texts in web pages,under the framework of Co-training.On the one hand,the graph-based semi-supervised classifier obtains high accuracy based on a small set of labeled examples through exploiting links among web pages and can augment labeled examples for the Bayes classifier.On the other hand,the Bayes classifier can also provide labeled example for the graph-based classifier after it learning on labeled set augmented by the graph-based classifier.Therefore,the two classifiers help each other and improve their respective performance during the process of training.Finally,the Bayes classifier can classify a large number of unseen examples.We test GCo-training algorithm,Co-training algorithm based on words occurring on web pages and words occurring in hyperlinks and Bayes algorithm based on EM on the Web→KB dataset.Experimental results show GCo-training performs much better than the other algorithms.

作者侯翠琴焦李成

机构地区西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室

出处《电子学报》 EI CAS CSCD 北大核心 2009年第10期2173-2180,2219,共9页 Acta Electronica Sinica

基金国家自然科学基金(No.60602064 No.60702062) 教育部重点项目(No.108115) 国家973重点基础研究发展规划(No.2006CB705707) 国家863高技术研究发展计划(No.2007AA12Z223) 国家部委科技项目(No.51307040103) 教育部长江学者和创新团队支持计划(No.IRT0645)

关键词图半监督 CO-TRAINING 归纳式网页分类 graph semi-supervised Co-training inductive web page classification

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1T Joachims. Transductive inference for text classification using support vector machines[ A ]. Proceedings of the 16th International Conference on Machine Learning [ C ], San Fransisco: Norgan Kaufmann, 1999. 200 - 209.
2K Nigam, A McCallum, S Thrun, T Mitchell. Text classification from labeled and unlabeled documents using EM[ J ]. Machine Learning,2000,39:103 - 134.
3X Zhu,Z Ghahramani, J Lafferty. Semi-supervised learning usiug gaussian fields and harmonic functions[ A]. Proceedings of the 20th International Conference on Machine Learning [ C ].New York:AAAI Press,2003.912 - 919.
4D Zhou, O Bousquet, T Lal, J Weston, B Scholkopf. Learning with local and global consistency[A]. Advances in Neural Information Processing System 16[C]. Cambridge: MIT Press, 2004. 321 - 328.
5D Zhou,B Scholkopf, T Hofmann. Semi-supervised learning on directed graphs[ A]. Advances in Neural Information Processing System 17 [ C ]. Cambridge: MIT Press 2005.1633 - 1640.
6D Zhou, J Huang, B Scholkopf. Learning from labeled and unlabeled data on directed graph[ A]. Proceedings of the 22nd International Conference on Machine Learning [ C]. New York: ACM Press,2005. 1041 - 1048.
7A Blum, T Mitchell. Combining labeled and unlabeled data with Co-training[ A] .Proceedings of the 11th Annual Conference on Computational Learning Theory[ C] New York: ACM Press, 1998.92- 100.
8X Zhu. Semi-Supervised Learning Literature Survey[R]. Technical Report 1530, Department of Computer Sciences, University of Wisconsin, Madison. 2005.
9K Niga, R Ghani. Analyzing the effectiveness and applicability of Co-training[ A]. Proceedings of the 17th International Conference on Machine Learning[ C]. San Fransisco: Norgan Kaufmann, 2000.86 - 93.
10Z Zhou, M Li. Tri-Training: exploiting unlabeled data using three classifiers[ J]. IEEE Transactions on Knowledge and Data Engineering, 2005,17( 11 ) : 1529 - 1541.

同被引文献159

1彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
2龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
5鲁明羽,沈抖,郭崇慧,陆玉昌.面向网页分类的网页摘要方法[J].电子学报,2006,34(8):1475-1480. 被引量：5
6顾燕萍,侯汉清,王晓红.中文图书自动标引与分类加权设计研究[J].中国图书馆学报,2006,32(6):69-72. 被引量：6
7王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007,43(9):176-177. 被引量：1
8张茂元,邹春燕,卢正鼎.一种基于变调整学习规则的模糊网页分类方法研究[J].计算机研究与发展,2007,44(1):99-104. 被引量：4
9郑海清,林琛,牛军钰.一种基于紧密度的半监督文本分类方法[J].中文信息学报,2007,21(3):54-60. 被引量：11
10VAPNIC V. The nature of statistical learning theory [M]. New York, USA: Springer, 1995.

引证文献9

1丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
2熊伟,周水庚,关佶红.网络数据分类研究进展[J].模式识别与人工智能,2011,24(4):527-537. 被引量：3
3邬书跃,余杰,樊晓平.基于改进SVM协作训练的入侵检测方法[J].计算机应用,2011,31(12):3337-3339. 被引量：2
4于重重,商利利,谭励,涂序彦,杨扬,王竞燕.一种增强差异性的半监督协同分类算法[J].电子学报,2013,41(1):35-41. 被引量：9
5张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
6张倩,刘怀亮.利用图结构进行半监督学习的短文本分类研究[J].图书情报工作,2013,57(21):126-132. 被引量：1
7WANG Xuesong CHENG Yuhu JI Jie.Semi-Supervised Regression Algorithm Based on Optimal Combined Graph[J].Chinese Journal of Electronics,2013,22(4):724-728. 被引量：1
8王树西,夏增艳.一种区分索引与信息的网页分类数学模型及证明[J].计算机科学,2014,41(B11):307-312.
9巴志超,李湘东,马亚雪,徐健.基于主题语义扩展的混合类型数字资源分类研究[J].情报理论与实践,2018,41(5):143-149. 被引量：3

二级引证文献26

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：10
2严志.基于UML的分类信息系统研究与设计[J].长沙民政职业技术学院学报,2012,19(3):130-131. 被引量：1
3潘玫玫,蔡健,朱隆海.基于数据挖掘的规则库防御性能改进研究[J].科技通报,2013,29(5):151-155.
4李丽娜,欧阳继红,刘大有,高文杰.一种结合特征选择和链接过滤的主动协作分类方法[J].计算机研究与发展,2013,50(11):2349-2357. 被引量：1
5吴筱,郭培源,何多多.DES和SM4算法的可重构研究与实现[J].计算机应用研究,2014,31(3):853-856. 被引量：10
6赵建华.半监督学习在网络入侵分类中的应用研究[J].计算机应用研究,2014,31(6):1874-1876. 被引量：5
7YU Lasheng,WU Xu,YANG Yu.An Online Education Data Classification Model Based on Tr_MAdaBoost Algorithm[J].Chinese Journal of Electronics,2019,28(1):21-28. 被引量：2
8周熊,多化琼,王振柱,任拓.基于图像处理和SVM探索木材与树皮的新识别参数[J].西北林学院学报,2014,29(5):199-202. 被引量：7
9赵建华.一种安全的基于分歧的半监督分类算法[J].西华大学学报（自然科学版）,2014,33(5):1-6. 被引量：2
10李萍,吴涛.人脑半监督的构造性学习方法[J].西安文理学院学报（自然科学版）,2014,17(3):70-73.

1徐文龙,姚立红,潘理,倪佑生.基于TSVM的网络入侵检测研究[J].计算机工程,2006,32(18):138-140. 被引量：5
2林卫星.单片机应用系统的软硬件开发[J].工业控制计算机,2002,15(9):58-60. 被引量：5
3罗海霞,冯剑琳.一种基于排列融合的归纳式半监督排序方法[J].计算机研究与发展,2011,48(S3):189-196.
4邬书跃,余杰,樊晓平.基于Tri-training的入侵检测算法[J].计算机工程,2012,38(6):158-160. 被引量：2
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6陈芊希,范磊.基于深度学习的网页分类算法研究[J].微型电脑应用,2016,32(2):25-28. 被引量：3
7蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
8高克寒,张素明,王晓林,安雪岩.基于改进归纳式监控算法的液体火箭发动机实时故障检测[J].航空动力学报,2016,31(10):2554-2560. 被引量：8
9陈琳,王箭.三种中文文本自动分类算法的比较和研究[J].计算机与现代化,2012(2):1-4. 被引量：6
10石义,钱步仁.基于内容与行为特征的反垃圾邮件系统[J].网络安全技术与应用,2009(4):20-21. 被引量：3

电子学报

2009年第10期

浏览历史

内容加载中请稍等...

基于图的Co-Training网页分类被引量：9

参考文献18

同被引文献159

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于图的Co-Training网页分类 被引量：9

参考文献18

同被引文献159

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于图的Co-Training网页分类被引量：9