基于遗传算法的主题爬虫策略改进被引量：4

Improvement of Focused Crawling Strategy Based on Genetic Algorithm

下载PDF

导出

摘要针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高。与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上。 Aiming at the subject drifting problem of topic crawling,this paper presents an improved strategy.Based on Genetic Algorithm,this strategy absorbs the idea of the PageRank algorithm and correlation of page,re-sets the fitness function and adjusts the size of correlation parameters of page by it.In this way,the superior gene is selected first and the subject drifting is reduced while delivering.Compared with previous strategies based on genetic algorithm,without prejudice to recall the circumstances,the number of pages relevant to the subject can raise more than 5%.

作者陈一峰赵恒凯余小清万旺根

机构地区上海大学通信与信息工程学院

出处《计算机仿真》 CSCD 北大核心 2010年第10期87-90,123,共5页 Computer Simulation

基金国家自然基金项目(60872115) 上海市教委重点学科建设项目(J50104)

关键词主题爬虫排序算法遗传算法网页信息 Focused crawler Pagerank algorithm Genetic algorithm Web information

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1刘朋,林泓,高德威.基于内容和链接分析的主题爬虫策略[J].计算机与数字工程,2009,37(1):22-24. 被引量：5
2张玲,秦拯,易先卉.基于遗传算法的Web信息采集策略研究[J].情报理论与实践,2008,31(2):303-306. 被引量：2
3刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量：14
4关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
5刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
6魏文国,谢桂园.自适应最优搜索算法的网络蜘蛛的设计与实现[J].计算机应用,2007,27(11):2857-2859. 被引量：1
7J Akilandeswari, N P Gopalan. Design of an Enhanced Rule based Focused Crawler[ C ]. First International Conference on Emerging Trends in Engineering and Technology ( IEEE Xplore). ICETET. 2008. 798 - 801.
8Animesh Tripathly, Prashanta K Patra. A web mining architectural model of distrbuted crawler for Internet searches using pageRank algorithm[ C]. Asia - Pacific service Computing Conference ( IEEE Xplore). APSCC 2008. 513 -518.

二级参考文献64

1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
2龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9
3欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
4李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
5李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
6吴安清,张颖江,涂军.主题搜索ROBOT综合爬行策略的研究[J].武汉理工大学学报,2006,28(2):74-76. 被引量：6
7刘维群,李元臣.基于遗传算法的个性化信息的特征提取[J].现代情报,2006,26(6):71-72. 被引量：2
8郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬虫[J].山东大学学报（理学版）,2006,41(3):106-110. 被引量：11
9高克宁,柴桥子,张斌,马安香.支持Web信息分类的高性能蜘蛛程序[J].小型微型计算机系统,2006,27(7):1308-1312. 被引量：6
10徐金雷,杨晓江.专业搜索引擎的排序算法研究[J].现代图书情报技术,2006(7):20-24. 被引量：9

共引文献145

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
4关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
5王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
6戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报,2009,31(3):138-141. 被引量：14
7蒋元成,蔡皖东.基于主动探测的BT行为监测系统设计与实现[J].航空计算技术,2009,39(1):134-137. 被引量：1
8张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
9曾云令,蔡皖东.eMule行为监测技术研究与系统实现[J].微电子学与计算机,2009,26(5):126-129.
10张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7

同被引文献41

1胡华梁,何进,钟元生.图书垂直搜索引擎的设计[J].计算机与现代化,2007(8):96-99. 被引量：3
2Chau M,Chen H.A machine learning approach to Web page filtering using content and structure analysis[J].Decision Support Systems,2008,44(2):482-494.
3Zhang H X,Lu J.SCTWC:An online semi-supervised clustering approach to topical web crawlers[J].Applied Soft Computing,2010,10 (2):490-495.
4Donderler M E,Saykol E,Arslan U,et al.BilVideo:Design and implementation of a video database management system[J].Multimedia Tools and Applications,2005,27(1):79-104.
5Liu King-Lup,Yu Clement,Meng Weiyi,et al.A statistical method for estimating the usefulness of text databases[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(6):1422-1437.
6Wang Da-quan,Wang Tian,Zhang Lin,et al.Deep into Web general vs vertical search engine design based on secure and QoS[C]//Cross Strait Quad-Regional Radio Science and Wireless Technology Conference (CSQRWC),2011.2011,1:847-851.
7Jia Yubo,Fan Hongdan,Xia Guanghu,et al.Design of an application model based on vertical search engine[C]//Proceedings of the 2nd International Conference on Networking and Distributed Computing (ICNDC).2011:57-60.
8Yan Lei,Wang Ting,Shang Yang.A research on theme correlation of vertical search engine based on ontology[C]//Proceedings of the 2010 International Conference on Information Networking and Automation (ICINA).2010,1:210-214.
9Shao Lei,Li Jianwei,Gou Xuerong.Research and design of a vertical search engine for educational resources[C]//Proceedings of the 2011 International Conference on Advanced Intelligence and Awareness Internet.2011:159-163.
10Gil-Costa V,Inostrosa-Psijas A,Marin M,et al.Service deployment algorithms for vertical search engines[C]//Proceedings of the 21st Euromicro International Conference on Parallel,Distributed,and Network-based Processing.2013:140-147.

引证文献4

1卓志宏.一种基于语义信息的主题相关性判别模型[J].计算机与现代化,2013(9):157-159.
2钱竞远,杨辉华,刘振丙.基于布谷鸟搜索算法的主题爬虫策略设计[J].仪器仪表用户,2017,24(6):20-23.
3刘灿,任剑宇,李伟,张强强.面向个性化推荐的教育新闻爬取及展示系统[J].软件工程,2018,21(2):38-40. 被引量：8
4邢丽.基于云计算的信息推荐系统研究[J].物流技术（装备版）,2013(2):185-188. 被引量：3

二级引证文献11

1刘静.基于多方向旋转误差弥补的立体街景地图仿真[J].科技通报,2014,30(6):103-106.
2聂军.基于智能群辨识的UAP云平台程控扩展算法[J].科技通报,2015,31(2):125-127.
3王名扬,贾冲冲,杨东辉.基于三度影响力的社交好友推荐机制[J].计算机应用,2015,35(7):1984-1987. 被引量：8
4陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
5毕曦文,纪明宇,吴鹏,方静,段仁翀,郭鹏鑫.个性化高校新闻分类推荐的应用研究[J].计算机应用与软件,2019,36(7):218-223. 被引量：10
6李增,刘羽,李诚诚.基于用户行为的新闻推荐算法的研究[J].计算机工程与科学,2020,42(3):529-534. 被引量：10
7潘晓英,陈柳,余慧敏,赵逸喆,肖康泞.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961-965. 被引量：37
8黄禹,兰洋,张玥,胡家全,黄粲.基于Scrapy的开源核情报采集系统构建[J].科技视界,2022(17):1-7. 被引量：1
9丁晟春,刘凯,方振.融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例[J].数据分析与知识发现,2022,6(8):52-60. 被引量：1
10杨健,陈伟.基于Python的三种网络爬虫技术研究[J].软件工程,2023,26(2):24-27. 被引量：15

1王天娥,叶德谦,季春兰.粗糙集属性约简方法在股票预测中的应用研究[J].计算机工程与应用,2009,45(30):227-229. 被引量：5
2彭沛夫,林亚平,胡斌,张桂芳.基于遗传因子的自适应蚁群算法最优PID控制[J].电子学报,2006,34(6):1109-1113. 被引量：21
3徐明子,吕立,李喜旺.改进空间向量模型主题网络爬虫系统[J].计算机系统应用,2013,22(7):36-39. 被引量：7
4黄振飞.基于带可选指标遗传算法的多Delta机器人系统布局优化[J].电子技术与软件工程,2015(17):78-82.
5李学忠,戴钧,柳毅.温控系统的智能优化方法研究与设计[J].机电工程,2014,31(7):955-958. 被引量：7
6人工智能[J].中国学术期刊文摘,2006,12(20):133-136.
7刘明华.基于遗传算法的飞行器路径规划研究[J].现代电子技术,2008,31(18):64-67. 被引量：4
8陈伟强,陈军,张闯,宋立国,谭卓理.基于智能粒子滤波的多传感器信息融合算法[J].计算机应用,2016,36(12):3358-3362. 被引量：10
9胡乃平,郭超.结合遗传算子的改进粒子群算法在轮胎硫化车间调度中的应用[J].计算机与现代化,2016(10):10-14. 被引量：2
10冯东栋,张钊.合成孔径雷达图像的分类方法研究仿真[J].计算机仿真,2013,30(9):382-385. 被引量：1

计算机仿真

2010年第10期

浏览历史

内容加载中请稍等...

基于遗传算法的主题爬虫策略改进被引量：4

参考文献8

二级参考文献64

共引文献145

同被引文献41

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的主题爬虫策略改进 被引量：4

参考文献8

二级参考文献64

共引文献145

同被引文献41

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的主题爬虫策略改进被引量：4