垂直搜索中网页抓取技术的研究被引量：5

下载PDF

导出

摘要网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。

作者陈哲

机构地区山东经贸职业学院

出处《科技信息》 2009年第22期I0182-I0182,共1页 Science & Technology Information

关键词网络爬虫网页搜集网页抓取

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王海波,姜吉发,耿晖,白硕,祝明发.XML搜索引擎研究[J].计算机应用研究,2001,18(4):68-71. 被引量：40
2Stephen Soderland. Learning Information Extraction Rules for Semi-Structured and Free Text[J] 1999,Machine Learning(1-3):233～272

二级参考文献8

1[1]XML and Search[EB/OL]. http://www.searchtools.com/related/ xml.html.
2[2]Goxml[EB/OL]. http://www.goxml.com.
3[3]Dongwook Shin, Hyuncheol Jang, Hongglan Jin. BUS: An Effective Indexing and Retrieval Cheme in Structured Documents[Z].
4[4]Roy Goldman, JasonMcHugh, Jennifer Widom. From Semi-structured Data to XML: Migrating the Lore DataModel and Query Language[Z].
5[5]Alin Deutsch, Mary Fernandez, Daniela Florescu. A Query Language for XML[C]. The Eighth International World Wide Web Conference.
6[6]Guidelines for Robot Writers[EB/OL]. Http://info. Webcrawler.com/mak/projects/robots/robots.html.
7[7]Extensible Markup Language (XML)[EB/OL]. Http://www.w3 .org/XML/.
8[8]Jon Bosak, Sun Microsystems. XML, Java, and the Future of the Web[Z].

共引文献39

1倪丽萍,张维勇,金麒.XML搜索引擎技术的实现与探讨[J].合肥工业大学学报（自然科学版）,2004,27(7):774-777. 被引量：1
2王彤.基于XML技术的报业数字资产管理系统[J].情报理论与实践,2004,27(4):430-432.
3李骥,陈福生.Native-XML数据库综述[J].计算机工程与设计,2004,25(6):932-934. 被引量：17
4史艳,李伟生.基于XML的搜索引擎技术的研究与设计[J].计算机工程与设计,2004,25(9):1488-1491. 被引量：10
5张明,王煜,杨敬伟,袁方,赵红,石强.基于Ontology的智能信息检索研究[J].河北大学学报（自然科学版）,2005,25(5):561-566. 被引量：3
6尹隽,翁翔,黄贤勇.企业ERP集成数据的联机搜索框架及实现模型[J].企业技术开发,2005,24(12):12-14.
7谢红侠,惠正运.一种面向文档的XML的索引查询方法[J].微机发展,2005,15(12):24-26. 被引量：1
8窦玉萌,王孟龙.面向语义Web的搜索引擎构想[J].情报探索,2006(7):56-58.
9何东彬,王俊义.XML文档检索技术研究[J].内蒙古大学学报（自然科学版）,2006,37(5):574-579. 被引量：3
10张慧,肖卫东,刘健,胡艳丽.Isearch机制分析[J].计算机应用研究,2006,23(12):129-131.

同被引文献27

1孙云,陈勇,陈启祥.AOP实现技术中拦截器框架的研究[J].华南金融电脑,2005,13(12):67-68. 被引量：1
2刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计与实现[J].现代图书情报技术,2006(5):40-43. 被引量：6
3王甫莉,陈健,郭晋亮.3-DES IP核的VerilogHDL设计[J].电子技术应用,2007,33(1):133-135. 被引量：5
4陈洪猛.基于垂直搜索技术的搜索引擎解决方案[J].电脑应用技术,2008(1):14-18. 被引量：7
5王舜燕,李蕾,吴兵华.基于ID3分类算法的深度网络爬虫设计[J].现代图书情报技术,2008(6):41-45. 被引量：4
6刘明辉,张志平,张新民.网络资源聚合方法探析[J].机械管理开发,2008,23(5):170-172. 被引量：2
7陈汶滨,夏学梅.基于聚焦爬虫的手机天气预报系统[J].今日科苑,2009(2):285-285. 被引量：1
8赵洋,滕桂法,张玉新,何冬梅.基于Internet的农业信息垂直搜索引擎的设计[J].河北农业大学学报,2009,32(6):125-128. 被引量：6
9李广丽,张红斌.面向计算机教育资源的垂直搜索引擎系统的设计[J].情报理论与实践,2010,33(5):95-98. 被引量：3
10刘运强.垂直搜索引擎的研究与设计[J].计算机应用与软件,2010,27(7):130-132. 被引量：10

引证文献5

1黄庆双.面向中等职业教育资源的垂直搜索引擎框架设计与研究[J].工业和信息化教育,2013(2):87-90.
2袁三男,杜小敏.IPTV监测平台EPG优化方案中的信息提取[J].上海电力学院学报,2017,33(2):185-190. 被引量：4
3巢晟盛,詹永照,杨洋.基于实地优先的GTD管理系统设计与实现[J].软件导刊,2017,16(9):100-103.
4唐勇.网络论坛爬虫的设计[J].电脑知识与技术,2012,8(1X):570-572. 被引量：2
5申圣兵,姚方元.Android解析网页课表的算法设计与实现[J].电脑知识与技术,2016,12(4X):215-216.

二级引证文献6

1金燕,王晓斌.虚拟社区用户信息行为研究方法的三维框架[J].图书情报工作,2012,56(14):73-76. 被引量：12
2唐勇.基于朴素贝叶斯算法对论坛文本分类的技术实现[J].电脑知识与技术（过刊）,2014,20(11X):7612-7615.
3陈东亚,袁三男,黄勇,吴立新.一种新型交互式网络电视监测系统的设计[J].上海电力学院学报,2019,35(1):96-99. 被引量：2
4袁三男,吴立新,严宇晨,孙伟杰,黄勇.基于智能识别的IPTV监管系统设计和实现[J].上海电力大学学报,2021,37(5):471-474. 被引量：5
5袁三男,吴立新,孙伟杰,严宇晨,黄勇.广播电视监测系统的设计和实现[J].上海电力大学学报,2021,37(6):563-566. 被引量：7
6傅芳.新型IPTV监测系统设计方案[J].电视技术,2024,48(7):30-33.

1王圆,蔡增玉,王兴杰.WEB搜索引擎关键技术研究[J].科技资讯,2008,6(23):10-11. 被引量：1
2张晴,李诺,吴际,刘超.针对模型驱动的Web应用测试的Web CraWler的设计和实现[J].计算机工程与科学,2006,28(z2):113-117. 被引量：1
3张玉亮,哈斯.蒙古文网络文本识别与采集方法[J].内蒙古师范大学学报（哲学社会科学版）,2016,45(4):81-85. 被引量：2
4网页搜集快手——超级文档管理器[J].网友世界,2003(8):36-37.
5于文超,刘菲.Web多媒体资源搜索与相关文本提取研究[J].中国科技资源导刊,2009,41(6):37-40. 被引量：1
6胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
7张亮,王纯.分布式网页搜集系统的设计与实现[J].北京工商大学学报（自然科学版）,2009,27(1):37-41.
8邱云飞,邵良杉,那宝贵.面向合作伙伴选择的中文Web信息获取系统研究[J].电子商务,2010,11(7):44-46.
9孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报（自然科学版）,2005,45(S1):1882-1886. 被引量：7
10谢正茂,张帆,李晓明.一种流数据多播接口的设计、实现与应用[J].集成技术,2012,1(1):43-47.

科技信息

2009年第22期

浏览历史

内容加载中请稍等...

垂直搜索中网页抓取技术的研究被引量：5

参考文献2

二级参考文献8

共引文献39

同被引文献27

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

垂直搜索中网页抓取技术的研究 被引量：5

参考文献2

二级参考文献8

共引文献39

同被引文献27

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

垂直搜索中网页抓取技术的研究被引量：5