NQPC:一种新型的基于查询日志的网页分类方法

NQPC:novel query log-based web-page classification method

下载PDF

导出

摘要网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。 Web-page classification can be utilized to categorize massive web-pages and thus can be utilized in lots of areas.There are quite a few existing automatic web-page classification methods,among which there is large performance improvement space for the commonly-used web-content-based method,due to the impurity of page content.In this paper,based on query log,a novel web-page-classification method NQPC（Novel Query log-based web-Page Classification）is proposed.Its novelty is that： a low-dimensional feature vector extraction method is proposed to avoid the＂curse of dimensionality＂;web-page classification is based on high-quality query log,which has purer content than web-page content;a filter method is proposed to improve the classification accuracy.Experimental results show that the web-page-classification method has excellent performance,which gives it good application prospects.

作者刘祥涛刘书良

机构地区广东电子工业研究院中国科学院计算技术研究所亿赞普科技有限公司

出处《计算机工程与应用》 CSCD 2012年第11期82-87,128,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.60803085 No.60873245) 广东省中国科学院全面战略合作项目(No.2009A0091100002 No.2010A090100004) 东莞市重大科技专项(No.2009215102001)

关键词查询日志网页分类机器学习文本分类特征抽取 query log web-page classification machine learning text classification feature extraction

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1CNNIC.第27次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.cn/research/bgxz/tjbg/201101/t20110120_20302.html/2011-01-19.
2Chakrabarti S,Dom B E,Indyk P.Enhanced hypertext cate-gorization using hyperlinks[C]//Proc of the ACM SIGMODInt Conf on Management of Data.New York:ACM,1998:307-318.
3Asirvatham A P,Ravi K K,Prakash A,et al.Web pageclassification based on document structure[EB/OL](.2001).[2011-03-05].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.24.7710&rep=rep1&type=pdf.
4Shen D,Sun J T,Yang Q,et al.A comparison of implicitand explicit links for web page classification[C]//Procof the 15th Int Conf on World Wide Web.New York:ACM,2006:643-650.
5Xue G R,Yu Y,Shen D,et al.Reinforcing web-objectcategorization through interrelationships[J].Data Miningand Knowledge Discovery,2006,12(2/3):229-248.
6Cohen W W.Improving a page classifier with anchor ex-traction and link analysis[C]//Proc of Advances in NeuralInformation Processing Systems.Cambridge,MA:MITPress,2002,15:1481-1488.
7Kan M Y,Thi H O N.Fast webpage classification usingURL features[C]//Proc of CIKM.New York:ACM,2005:325-326.
8Qi X G,Davison B D.Web page classification:featuresand algorithms[J].ACM Comput Surv,2009,41(2):1-31.
9Silverstein C,Marais H,Henzinger M,et al.Analysis of avery large web search engine query log[J].SIGIR Forum,1999,33(1):6-12.
10Wen J R,Nie J Y,Zhang H.Clustering user queries ofa search engine[C]//Proc of the 10th Int World WideWeb Conf.New York:ACM,2001:162-168.

共引文献15

1罗莹.高校文库与高校机构知识库之比较及发展策略研究[J].情报理论与实践,2011,34(7):120-123. 被引量：14
2王乐鹏,李春丽,王颖.论成功网络视频营销的典型特征[J].市场论坛,2011(7):60-61. 被引量：2
3陈兵.传媒生态视阈中的移动互联网生存策略[J].中国出版,2011(16):14-16. 被引量：5
4安东梅,耿晓光.文献的滥觞与采访的怯魅——数字环境下文献采访策略[J].图书馆建设,2011(8):29-31. 被引量：10
5周湘鄂.论网络反腐在推动反腐倡廉建设中的作用[J].合肥学院学报（社会科学版）,2011,28(5):83-86. 被引量：5
6王跃辉,魏芳.适合中小运营商的网游优化方案[J].通信技术,2011,44(10):112-115. 被引量：1
7张洪孟,候西龙,周金辉,张敏,李晓飞.基于QQ空间的大学生网络媒介素养现状调查与分析[J].软件导刊.教育技术,2011,10(10):33-35. 被引量：5
8王跃辉,何晓锋,魏芳.针对3G上网用户的无线网络加速系统[J].通信技术,2011,44(11):83-87. 被引量：2
9魏斐翡.基于网上消费者风险的快递服务满意度分析[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):1003-1006. 被引量：16
10刘璇,张向前.“淘宝网”盈利模式分析[J].经济问题探索,2012(1):148-154. 被引量：22

1周序生,李爽.网页自动分类的建模与仿真研究[J].计算机仿真,2011,28(10):121-124. 被引量：3
2李滔,王俊普,徐杨.一种基于粗糙集的网页分类方法[J].小型微型计算机系统,2003,24(3):520-522. 被引量：19
3王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007,43(9):176-177. 被引量：1
4郝维来,郑同山.基于AdaBoost的集成分类器在电信增值业务中的应用[J].计算机技术与发展,2011,21(3):197-199. 被引量：1
5王声柱,李永忠.基于深度学习和半监督学习的入侵检测算法[J].信息技术,2017,41(1):101-104. 被引量：9
6宗永升,张祎.支持向量机与K近邻结合的网页分类方法[J].计算机仿真,2010,27(9):208-211. 被引量：5
7孙少波.利用本体集成和特征聚类的网页分类研究[J].现代电子技术,2012,35(14):93-96.
8黄旭,朱艳琴,罗喜召.面向不良文本信息的中文网页分类方法[J].微电子学与计算机,2008,25(6):215-217. 被引量：1
9郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
10朱兴统,左敬龙,张晶华.改进量子粒子群优化支持向量机的网页分类[J].湖南科技大学学报（自然科学版）,2012,27(3):81-85. 被引量：6

计算机工程与应用

2012年第11期

浏览历史

内容加载中请稍等...

NQPC:一种新型的基于查询日志的网页分类方法

参考文献22

共引文献15

相关作者

相关机构

相关主题

浏览历史