一种具有增量学习能力的PU主动学习算法被引量：1

PU Active Learning Algorithm with Incremental Learning Ability

下载PDF

导出

摘要在正例和无标记样本增量学习中,初始正例样本较少且不同类别正例的反例获取困难,使分类器的分类和泛化能力不强,为解决上述问题,提出一种具有增量学习能力的PU主动学习算法,在使用3个支持向量机进行协同半监督学习的同时,利用基于网格的聚类方法进行无监督学习,当分类与聚类结果不一致时,引入主动学习对无标记样本进行标记。实验结果表明,将该算法应用于Deep Web入口的在线判断和分类能有效提高入口判断的准确性及分类的正确性。 In positive and unlabeled samples of incremental learning, the initial positive samples are small and positive cases of different types of cases are difficult to get, making classifier classification ability and generalization ability weak. A new algorithm called PU Active Learning algorithm with Incremental learning ability（l-PUAL） is presented, which is applied to Deep Web sources on-line judgments and classification. Experimental results show that it can take advantage of online unlabeled samples to improve the accuracy of judgments and classification correctness.

作者陈文晏立周亮

机构地区江苏大学计算机科学与通信工程学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第4期214-215,226,共3页 Computer Engineering

关键词 PU学习支持向量机基于网格的聚类 PU learning SVM grid-based clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Peng Tao, Zuo Wanli, He Fengling. SVM-based Adaptive Learning Method for Text Classification from Positive and Unlabeled Documents[J]. Knowledge and Information Systems, 2008, 16(3): 281-301.
2Zhang Bangzuo, Zuo Wanli. Tri-training Based Learning from Positive and Unlabeled Data[C]//Proc. of 2008 International Symposiums on Information Processing and 2008 International Pacific Workshop on Web Mining and Web-based Application. Moscow, Russia: [s. n.], 2008: 650-654.
3Zhou Zhihua, Li Ming. Tri-training: Exploiting Unlabeled Data Using Three Classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11): 1529-1541.
4Wang Wei, Yang Jiong, Muntz R. STING: A Statistical Informa- tion Grid Approach to Spatial Data Mining[C]//Proc. of the 23rd Conference on VLDB. Athens, Greece: Is. n.I, 1997.
5Li Kunlun, Zhang Wei, Ma Xiaotao, et al. A Novel Semi- supervised SVM Based on Tri-training[C]//Proc. of the 2nd International Symposium on Intelligent Information Technology Application. Shanghai, China: [s. n.], 2008.
6张世明,覃正,徐和祥,夏德元.基于Deep Web的教育资源检索系统[J].计算机工程,2010,36(3):76-78. 被引量：1
7马军,宋玲,韩晓晖,闫泼.基于网页上下文的Deep Web数据库分类[J].软件学报,2008,19(2):267-274. 被引量：31
8王辉,刘艳威,左万利.使用分类器自动发现特定领域的深度网入口(英文)[J].软件学报,2008,19(2):246-256. 被引量：14
9Li Zhitao, Liu Quan, Cui Zhiming, et al. A Method to Automa- tically Discover and Classify Deep Web Data Source Using Multi-classifier[C]/Proc. of 2009 WRI World Congress on Computer Science and Information Engineering. Los Angeles, California, USA: [s. n.], 2009.

二级参考文献48

1教育部基础教育课程教材发展中心.CELTS-42-2006基础教育教学资源元数据应用规范[S].2006.
2Liu Wei, Meng Xiaofeng, Meng Weiyi. Vision-based Web Data Record Extraction[EB/OL]. (2006-06-30). http://www.cs.bingham ton.edu/-meng/pub.d/WebDBCamera.pdf.
3Weber R.HTTPClient客户端编程工具包应用[EB/OL].(2007-12-02).http://wikiapache.org/jakarta-httpclient/HttpClient.
4Gravano L, Garcia-Molina H, Tomasic A. Gloss: Textsource discovery over the Intemet. ACM Trans. on Database Systems, 1999, 24(2):229-246.
5Yi L, Liu B. Web page cleaning for Web mining through feature weighting. In: Cohn AG, ed. Proc. of the 18th Int'l Joint Conf. on Artificial Intelligence (IJCAI 2003). Acapulco: Kluwier Academic Publisher, 2003.64-75.
6Bergholz A, Chidlovskii B. Crawling for domain-specific hidden Web resources. In: Spaccapietra S, ed. Proc. of the 4th Int'l Conf. on Web Information Systems Engineering. Rome: IEEE Computer Society, 2003. 125-133.
7Barbosa L, Freire J, Silva A. Organizing hidden-Web databases by clustering visible Web documents. In: Doqac A, ed. Proc. of IEEE the 23rd Int'l Conf. on Data Engineering. Istanbul: IEEE Computer Society, 2007. 326-335.
8Gravano L, Ipeirotis PG, Sahami M. QProber: A system for automatic classification of hidden-Web databases. ACM TOIS, 2003, 21(1):1-41.
9He B, Tao T, Chang KCC. Organizing structured Web sources by query schemas: A clustering approach. In: Oravano L, ed. Proc. of ACM the 13th Conf. on Information and Knowlege Management. Washington: ACM Press, 2004.22-31.
10Baeza-Yates R, Ribeiro-Neto B. Modem Information Retrieval. Boston: Addison Wesley, 1999. 27-30.

共引文献39

1王辉,左万利,王晖昱,宁爱军,孙志伟,满春雷.基于质心向量的增量式主题爬行[J].计算机研究与发展,2009,46(2):217-224. 被引量：4
2高明,黄哲学.Deep Web研究现状与展望[J].集成技术,2012,1(3):47-54. 被引量：1
3周爱武,李玉梅,周闪闪,王宝铜.基于返回结果的Deep Web查询接口识别[J].计算机技术与发展,2009,19(7):117-119. 被引量：1
4刘芳.查询自动生成器在Web数据库发现中的应用[J].信息技术,2009,33(6):85-87. 被引量：2
5崔晓军,彭智勇,杨先娣,张莹.Deep Web信息按需集成研究综述[J].武汉大学学报（理学版）,2009,55(4):465-472. 被引量：2
6鲜学丰,赵朋朋,辛洁,方巍,崔志明.基于领域样本查询的Deep Web数据库分类[J].微电子学与计算机,2010,27(3):20-23. 被引量：1
7陆余良,房珊瑶,刘金红,施凡.Deep Web站点分类研究进展[J].安徽大学学报（自然科学版）,2010,34(1):103-108. 被引量：1
8杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
9沈炜,蒙祖强.基于Web日志粒度化的深网数据库分类[J].微计算机信息,2010,26(15):161-162.
10华慧,伏玉琛,周小科.基于查询接口文本的Deep Web数据源分类[J].计算机工程,2010,36(12):66-68. 被引量：1

同被引文献11

1张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
2周明孙树栋.遗传算法原理及应用[M].北京：国防工业出版社,1996..
3Sarkar B K,Sana S S,Chaudhuri K. Selecting Informative Rules with Parallel Genetic Algorithm in Classification Problem [J]. Applied Mathematics and Computation, 2011,218(7):3247-3264.
4Lee J H. Combining the Evidence of Different Relevance Feedback Methods for Information Retrieval [J]. Information Processing and Management,1998,34(6): 681-691.
5Tao Dacheng,Tang Xiaoou,Li Xuelong. Direct Kernel Biased Discriminant Analysis: A New Content-based Image Retrieval Relevance Feedback Algorithm [J]. IEEE Transactions on Multimedia,2006,8(4):716-727.
6李鑫,黄萱菁,吴立德.基于错误驱动算法组合分类器及其在问题分类中的应用[J].计算机研究与发展,2008,45(3):535-541. 被引量：19
7许莉,王大玲,夏秀峰.基于句法和语义信息的问句特征提取方法[J].计算机工程,2010,36(21):65-66. 被引量：6
8洪智勇,王天擎,刘灿涛.一种新的互信息特征子集评价函数[J].计算机工程与应用,2011,47(22):130-132. 被引量：4
9杨思春,高超,秦锋,戴新宇,陈家骏.融合基本特征和词袋绑定特征的问句特征模型[J].中文信息学报,2012,26(5):46-52. 被引量：8
10宫秀军,刘少辉,史忠植.一种增量贝叶斯分类模型[J].计算机学报,2002,25(6):645-650. 被引量：55

引证文献1

1王小林,镇丽华,杨思春,邰伟鹏,郑啸.基于增量式贝叶斯模型的中文问句分类研究[J].计算机工程,2014,40(9):238-242. 被引量：7

二级引证文献7

1曾谁飞,张笑燕,杜晓峰,陆天波.改进的朴素贝叶斯增量算法研究[J].通信学报,2016,37(10):81-91. 被引量：11
2张宁,朱礼军.中文问答系统问句分析研究综述[J].情报工程,2016,2(1):32-42. 被引量：13
3吴国文,庄千料.一种改进的增量式贝叶斯文本分类算法[J].计算机应用与软件,2017,34(6):226-229. 被引量：4
4李梦婷,赵帅,陈绍炜,黄登山.基于增量贝叶斯学习模型的在线电路故障诊断[J].计算机应用与软件,2018,35(6):70-75. 被引量：3
5柔特,才让加.基于循环卷积神经网络的藏文句类识别[J].中文信息学报,2019,33(12):76-82. 被引量：3
6李海,孙婷逸,程新宇.基于增量贝叶斯的双偏振气象雷达降水粒子分类方法[J].雷达科学与技术,2022,20(3):319-327. 被引量：3
7王娟,侯丽.医疗健康领域问题分类探析[J].医学信息学杂志,2023,44(12):20-28. 被引量：1

1高兵,邹启杰.基于网格的聚类方法研究[J].软件工程师,2010(2):120-123.
2胡宇.基于网格的聚类方法研究[J].商情,2014(17):307-307.
3郑科鹏,冯筠,孙霞,冯宏伟,曹国震.基于静态集成PU学习数据流分类的入侵检测方法[J].西北大学学报（自然科学版）,2014,44(4):568-572. 被引量：1
4江先伟.一种基于网格聚类的多密度处理方法[J].劳动保障世界,2015(12Z):59-60.
5李瑜.云计算和网格计算[J].科学咨询,2013(18):60-61.
6宋群,张骏,智永锋.基于集成PU学习数据流分类的入侵检测方法[J].微电子学与计算机,2013,30(7):173-176.
7占强,林亚平.一种基于网格的分簇路由算法[J].中南林业科技大学学报,2010,30(4):166-169.
8罗静,刘宗歧.基于网格聚类算法的电力营销预测研究[J].科技信息,2011(13):366-367. 被引量：5
9解静,石冰,付利红.基于网格的的均匀簇划分方法[J].中国电子商情（通信市场）,2010(5):68-72.
10武永华,羊富贵.液晶显示器的摄像头性能检测软件系统设计[J].电视技术,2013,37(7):107-110.

计算机工程

2011年第4期

浏览历史

内容加载中请稍等...

一种具有增量学习能力的PU主动学习算法被引量：1

参考文献9

二级参考文献48

共引文献39

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种具有增量学习能力的PU主动学习算法 被引量：1

参考文献9

二级参考文献48

共引文献39

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种具有增量学习能力的PU主动学习算法被引量：1