基于URL和网页类型的网页信息采集研究

下载PDF

导出

摘要 Internet上的海量数据对人们有效、快速地使用这些资源和信息提出了挑战。网页信息采集更新的方法在很大程度上决定了网页更新的效果。为提高网页信息更新的效果,本文从抓取入口页面开始,采集网页后进行去重操作,并将网页分块提取出超链接URL信息。在此基础上,应用网页更新策略提高网页更新效果。最后,应用基于URL和网页类型的采集更新检测方法来实现网页信息采集。

作者张锋

机构地区天津工业大学计算机科学与软件学院天津天狮学院工商管理学院

出处《电子制作》 2017年第2期28-29,共2页 Practical Electronics

关键词页面更新入口页面信息采集更新检测

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1胡越,张源伟,雷军.自定规则的AJAX网页信息采集功能的设计[J].物联网技术,2016,6(9):86-87. 被引量：3
2徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报（自然科学版）,2015,38(2):151-154. 被引量：5
3张小集,白清源.可自定规则的Ajax网页信息采集框架的开发[J].电脑开发与应用,2014,27(10):29-31. 被引量：2
4王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
5张雷,李菁姝,马宇新,张玮.利用网页信息采集技术建立医院内网新闻平台的探讨[J].教育教学论坛,2013(51):198-199. 被引量：1
6胥小波,赵尔凡,康荣保.基于语义分析的互联网人物信息提取[J].信息安全与通信保密,2013,11(12):103-108. 被引量：3

二级参考文献25

1李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
2郑晓松,袁继贤,徐明.校园网络新闻及其管理[J].电脑知识与技术,2007(3):1191-1191. 被引量：3
3Mesbaha,Bozdac E,van Deursen A.Crawling Ajax by Infer-ring user Interface Sate Changes.[C]//Proc of the8th International Conference on Web Engineering.2008.
4Sebastiano Armeli-Battana.在多个浏览器中进行Web应用程序的端到端功能测试[EB/OL].http://www.ibm.com/developerworks/cn/web/wa-selenium2/index.html,2012-10-23.
5MITCHELL T M. Machine learning[M].China:Machine Press,2008.50-78.
6罗刚.自己动手写搜索引擎[M]北京:电子工业出版社,2009.
7火善栋.基于网页结构特征的网页主要文本信息抽取策略[J].现代计算机,2008,14(4):73-75. 被引量：4
8刘汉兴,刘财兴.主题爬虫的搜索策略研究[J].计算机工程与设计,2008,29(12):3160-3162. 被引量：26
9陈俊彬,曹树金.基于Heritrix的Web信息抽取[J].图书情报工作,2009,53(9):112-115. 被引量：6
10夏天.Ajax站点数据采集研究综述[J].现代图书情报技术,2010(3):52-57. 被引量：10

共引文献15

1唐擎.组织机构代码信息公众查询平台防治网络爬虫问题[J].网络安全技术与应用,2014(11):127-127.
2张爽.互联网页面信息的采集与处理技术分析[J].信息系统工程,2016,29(6):29-29.
3杜彬.基于Selenium的定向网络爬虫设计与实现[J].金融科技时代,2016,24(7):35-39. 被引量：6
4胡越,张源伟,雷军.自定规则的AJAX网页信息采集功能的设计[J].物联网技术,2016,6(9):86-87. 被引量：3
5张世红.海量网页挂码信息自动采集方法仿真[J].计算机仿真,2017,34(4):280-283. 被引量：2
6张云洋.藏文网页搜索关键技术研究[J].计算机时代,2017(6):22-25.
7刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5
8吴永亮,贾志杰,陈建平,朱月琴.基于大数据智能的找矿模型构建与预测[J].中国矿业,2017,26(9):79-84. 被引量：12
9黄振峰.学者资料搜索与特征信息提取[J].信息技术,2017,41(9):150-153. 被引量：1
10何锋丽,杨大利,游璐颖,霍艳艳.基于H5的欧美影视剧信息检索网站的设计与实现[J].电子技术与软件工程,2019(1):37-39. 被引量：1

1范霖君.数据库日志信息源监测方法的研究与实现以SQL Server数据库为例[J].中国新通信,2015,17(6):69-70. 被引量：1
2大江东去.利用Diff-IE插件跟踪页面更新[J].电脑迷,2011(3):79-79.
3戚晓光,赵仲孟.关于搜索引擎中非对称页面更新算法的研究[J].微电子学与计算机,2004,21(5):60-62.
4邵辉,李芳.基于树模型算法的动态网页信息抽取研究和实现[J].计算机应用与软件,2007,24(10):99-100. 被引量：2
5陈晓志,董守斌,张凌,张元丰.基于URL类型和网页链接变化的信息采集更新算法[J].郑州大学学报（理学版）,2007,39(2):60-64. 被引量：1
6薛丽敏,薛虹军.一种新型的网页去噪及网页类型判断方法[J].信息网络安全,2013(6):30-34.
7常瑞,刘晓清.胶印品质量控制中的模糊技术[J].制造业自动化,2006,28(5):75-76. 被引量：1
8陈翰,周杰,李弼程.一种基于综合特征的网页类型识别方法[J].信息工程大学学报,2011,12(6):738-744. 被引量：1
9王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
10张小集,白清源.可自定规则的Ajax网页信息采集框架的开发[J].电脑开发与应用,2014,27(10):29-31. 被引量：2

电子制作

2017年第2期

浏览历史

内容加载中请稍等...

基于URL和网页类型的网页信息采集研究

参考文献6

二级参考文献25

共引文献15

相关作者

相关机构

相关主题

浏览历史