基于URL类型和网页链接变化的信息采集更新算法被引量：1

The Crawling Refreshment Algorithm Based on URL Type and Outlink Change

下载PDF

导出

摘要通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果. The refreshment algorithm based on URL type and outlink change is proposed by observing the page orderliness of Web sites and the structural characteristics of the page. This algorithm is used for fetching the entry pages,and a perfect effect in real application is obtained.

作者陈晓志董守斌张凌张元丰

机构地区华南理工大学计算机科学与工程学院

出处《郑州大学学报（理学版）》 CAS 2007年第2期60-64,共5页 Journal of Zhengzhou University:Natural Science Edition

基金国家自然科学基金资助项目编号90412015

关键词入口页面网页更新增量采集 entry page page refreshment incremental crawler

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1文坤梅,卢正鼎.搜索引擎中基于分类的网页更新方法研究[J].计算机科学,2004,31(B09):1-2. 被引量：1
2Edwards J,McCurley K,Tomlin J.An adaptive model for optimizing performance of an incremental Web crawler[C]∥Proceedings of the 10th Int'l Conference on World Wide Web.New York:ACM Press,2001:106-113.
3Castillo C,Baeza-Yates R.A new model for Web crawling[C]∥Proceedings of the 11th World Wide Web Conference.New York:ACM Press,2002:1-4.
4Yan H F,Wang J Y,Li X M,et al.Architectural design and evaluation of an efficient Web-crawling system[J].Journal of Systems and Software,2002,60(3):185-193.
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6Kraaij W,Westerveld T,Hiemstra D.The importance of prior probabilities for entry page search[C]∥Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,NY,USA:ACM Press,2002:1-2.
7胡俊刚,董守斌,陈晓志,张元丰.基于URL类型优先级的入口页面查询算法[J].山东大学学报（理学版）,2006,41(3):63-67. 被引量：1

二级参考文献12

1孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
2北京大学网络实验室．中文Web信息检索评测[Z]．北京：北京大学网络实验室，2006．
3Kraaij W, Westerveld T, Hiemstra D. The importance of prior probabilities for entrypage search[A]. Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval [C]. New York, USA:ACM Press, 2002.1 - 2.
4北京大学网络实验室．SEWM 22004中文Web检索测试指南[Z]．北京：北京大学网络实验室，2004．
5Ricardo Baeza-Yate, Berthier Ribeiro-Neto. Modeminformation retrieval[M]．北京：机械工业出版社，2005．
6D Hiemstra. Using language models for information retrieval.PhD thesis [M]. University of Twente, The Netherlands: Centre for Telematics and Information Technology, 2001.
7丁国栋．统计语言建模中的平滑技术[EB／OL].http://159.226.40.18/reports/smoothing% 20for% 20slm. ppt, 2004-04/2006-03.
8Hodgson J. Do HTML tags flag semantic content? [J]. IEEE Internet Computing, 2001, 5(1):20-25.
9T Upstill, N Craswell, D Hawking. Query-independent evidence in home page finding[J]. ACM Transactions on Information Systems, 2003, 21(3) :3 - 5.
10E M Voorhees, D K Harman. The tenth text retrieval conference (TREC-2001)[J]. National Institute of Standards and Technology, NIST, 2002, 10(2) : 1 - 2.

共引文献21

1刘辉林,孟莉,杨松波,王光兴.专业搜索引擎数据更新的算法P^2FC[J].广西师范大学学报（自然科学版）,2007,25(2):222-225. 被引量：1
2徐和祥,王鑫印,王述云,胡运发.基于知识的Deep Web集成环境变化处理的研究[J].软件学报,2008,19(2):257-266. 被引量：6
3王大伟,张岩,曾皓,潘延辉.一个预测网页变化的增量式更新模型[J].微计算机信息,2009,25(6):153-154. 被引量：2
4徐文杰,陈庆奎.增量更新并行W eb爬虫系统[J].计算机应用,2009,29(4):1117-1119. 被引量：8
5陈丽君,林怀忠.搜索引擎页面刷新策略研究综述[J].计算机系统应用,2009,18(7):210-214. 被引量：5
6柴军飞.搜索引擎中的网络蜘蛛技术探析[J].今日科苑,2009(24):122-122.
7徐尚瑜.基于泊松过程的爬虫调度策略分析[J].现代计算机,2009,15(12):68-71. 被引量：1
8杜言琦,马军.基于版块的论坛增量搜集策略[J].中文信息学报,2010,24(3):62-68. 被引量：2
9杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].软件导刊,2010,9(7):38-39. 被引量：6
10欧阳柳波,易显,李学勇,杨柱.面向用户体验的大型网站网页分类更新策略[J].华中科技大学学报（自然科学版）,2010,38(9):18-21. 被引量：1

同被引文献3

1Kim Yeonjung.Web Information Extraction by HTML Tree Edit Distance Matching[C]//Proc.of the 2007 International Conference on Convergence Information Technology.Gyeongju,Korea:[s.n.],2007:2455-2460.
2Selkow S M.The Tree-to-tree Editing Problem[J].Information Processing Letters,1977,6(6):184-186.
3de Castro R D.Automatic Web News Extraction Using Tree Edit Distance[C]//Proceedings of the 13th International Conference on World Wide Web.New York,USA:[s.n.],2004:502-511.

引证文献1

1姜波,丁岳伟.基于约束树编辑距离与导航树的信息采集[J].计算机工程,2009,35(14):75-77. 被引量：9

二级引证文献9

1聂卉,黄贵鹏.树编辑距离在Web信息抽取中的应用与实现[J].现代图书情报技术,2010(5):29-34. 被引量：8
2宋伟,崔军岩,邱保志.远程多媒体课件制作平台关键技术研究[J].河南师范大学学报（自然科学版）,2010,38(4):148-150. 被引量：1
3唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
4黄亮,赵泽茂,梁兴开.基于编辑距离的Web数据挖掘[J].计算机应用,2012,32(6):1662-1665. 被引量：16
5高荣芳.一种基于可配置层级结构的导航树生成策略[J].西安石油大学学报（自然科学版）,2012,27(5):95-98. 被引量：1
6杨蓉.基于AJAX技术的多媒体课件制作平台解决方案[J].科技视界,2012(28):209-210.
7刘纪平,张建博,王勇.域本体支持的海图和地形图要素语义映射方法研究[J].武汉大学学报（信息科学版）,2013,38(3):319-323. 被引量：1
8李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：3
9黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5

1马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
2张锋.基于URL和网页类型的网页信息采集研究[J].电子制作,2017,0(2):28-29.
3杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
4温华.渐热的“．手机”新域名[J].计算机应用文摘,2015,0(14):32-33.
5王守银.一种网络论坛有害信息监测系统的构建与应用[J].信息网络安全,2013(10):147-149.
6丁兆贵,金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,21(2):105-108. 被引量：9
7刘奕群,张敏,马少平.利用虚拟站点定位技术的网络信息检索研究[J].中文信息学报,2005,19(2):44-50.
8胡俊刚,董守斌,陈晓志,张元丰.基于URL类型优先级的入口页面查询算法[J].山东大学学报（理学版）,2006,41(3):63-67. 被引量：1
9文坤梅,卢正鼎.搜索引擎中基于分类的网页更新方法研究[J].计算机科学,2004,31(B09):1-2. 被引量：1
10刘欣页,李文举,高连军,尉秀芹.一种有效的道路背景提取与更新算法[J].微型机与应用,2012,31(7):46-48. 被引量：2

郑州大学学报（理学版）

2007年第2期

浏览历史

内容加载中请稍等...

基于URL类型和网页链接变化的信息采集更新算法被引量：1

参考文献7

二级参考文献12

共引文献21

同被引文献3

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于URL类型和网页链接变化的信息采集更新算法 被引量：1

参考文献7

二级参考文献12

共引文献21

同被引文献3

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于URL类型和网页链接变化的信息采集更新算法被引量：1