个性化Web采集算法研究及其应用被引量：1

Based on Customized Web Crawling Arithmetic Study and Application

下载PDF

导出

摘要全面详细地研究了用户个性化W eb信息采集算法,并提出了一个基于指定站点的用户个性化W eb信息采集模型;实验结果表明,在一个用户指定的站点内,该模型可以快速的采集到根据用户需求定制的页面,并存储到本地的文件系统中.这个采集模型具有较强的实用价值,可以为创建某方面的资源库快速的采集信息. This paper study customized crawling arithmetic roundly and in detail, and raise a based on customized Web crawling model , The experimental result indicates the model can crawl web pages requested by user quickly and store in local file system. This web crawler model has stronger practical value, it can gather information in order to establish the resources bank of some respect fast.

作者刘彤

机构地区广州市花都区广播电视大学计算机教研室

出处《贵州大学学报（自然科学版）》 2006年第3期305-313,共9页 Journal of Guizhou University:Natural Sciences

基金广东省科技攻关项目(A10202001) 广州市科技攻关项目(20004Z2-D0091)

关键词 WEB 信息采集个性化采集算法 Web web crawling customized crawling arithmetic

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1刘彤．基于用户个性化的Web信息采集技术研究华南理工大学硕士学位论文．
2R MILLER, K BHARAT. Sphinx: A framework for creating personal, site-specific web crawlers [ R ]. In Proceedings of the seventh conference on World Wide Web, Brisbane, Australia, April 1998.
3CLAUDIO SCORDINO CRAWLING. the Web:problems and techniques[ M ]. Ph D Student. May 2004 Computer Science Department-University of Pisa.
4SOUMEN CHAKRABARTI, MARTIN VAN DEN BERG, BYRON DOM: Focused Crawling: A New Approach to Topic-Specific Resource Discovery[ M]. IBM Almaden Research Center.
5J CHO and H GARCIA-MOLINA. The evolution of the web and implications for an incremental crawler[ EB/OL]. In Proceedings of the 26th International Conference on Very Large Databases, 2000. http ://rose. cs. ucla. edu/? cho/papers/cho - evol. pdf.
6J CHO and H GARCIA-MOLINA. Parallel crawlers[ R]. In Proceedings of the llth Intemational World Wide Web Conference, 2002.
7J CHO, H GARCIA-MOLINA,and L PAGE. Efficient crawling through URL ordering[ R ]. In Proceedings of the 7th International World Wide Web Conference, pages 161 -172,Brisbane, 1998. http ://www7. scu. edu. au/programme/fullpapers/1919/com1919, htm.
8M NAJORK and J L WIENER. Breadth-First Crawling yields high-quality pages[ R]. In Proceedings of the 10th International World Wide Web Conference, pages 114 - 118, May 2001.
9MICHAEL CHAU,HISINCHUN CHEN. Personalized and Vocused Web Spiders.
10M DILIGENTI, F COETZEE, S. LAWRENCE, C L GILES, M GORI. Focused crawling using context graphs[ R]. In Proceedings of 26th International Conference on Very Large Databases (VLDB), pages 527. 534, Cairo, Egypt, September 2000.

同被引文献7

1王欣如.Web挖掘技术综述[J].计算机科学,2006,33(B12):127-129. 被引量：4
2Li Jianxin.Web Rohot-WebCrawler[EB/OL].http://eleam-ing.nsysu.edu.tw/power2/zyca/Webcrawler.ppt.2007-12-26.
3Padmini Srinivasan.Automatic text categorization and its ap-plication to text retrieval[J].IEEE Transactions On Knowl-edge and Data Engineering,1999,11(6):865-879.
4The National Science Fonildafion.About NSDL[EB/OL].http://recommend.nsdl.org/,2007-11-07.
5百度在线网络技术(北京)有限公司.百度企业竞争情报系统白皮书[Z].内部资料,2004:7-8.
6吴金红,张玉峰,王翠波.基于本体的竞争情报采集模型研究[J].情报理论与实践,2007,30(5):577-580. 被引量：13
7唐涛,张玉峰.基于数据挖掘的企业竞争情报智能采集模型研究[J].情报科学,2007,25(10):1575-1578. 被引量：11

引证文献1

1曹志杰.基于主题的Web挖掘技术在航天情报跟踪中的应用研究[J].情报科学,2009,27(5):774-777. 被引量：2

二级引证文献2

1张兴旺,黄晓斌.图书情报学视角下Web挖掘研究述评[J].图书情报工作,2014,58(4):117-126. 被引量：2
2郭颂,边伟,刘洋,胡钛.基于SVM主题爬虫的航天情报采集应用研究[J].电子设计工程,2016,24(17):28-30. 被引量：9

1刘彤,张阳,孙琦,袁翀.基于Hadoop的可视化Deep Web采集平台设计[J].计算机工程与科学,2016,38(2):217-223. 被引量：4
2王忠,程磊.基于元搜索引擎的个性化Web信息采集[J].计算机工程与设计,2009,30(13):3117-3119. 被引量：12
3张玲,许亮,姜华.Web采集中信息组合自学习的研究[J].计算机技术与发展,2013,23(11):216-219.
4徐飞,郑秋生,高艳霞.基于云存储的网页归档方案的研究[J].计算机时代,2017(4):21-24. 被引量：5
5谭媛媛,王伟.基于WEB的智能信息采集及处理系统的关键技术[J].中国新技术新产品,2010(11):31-31.
6李文东.基于WEB的智能信息采集及处理系统研究[J].科技创新导报,2008,5(23):15-15. 被引量：1
7吴艳.基于WEB的智能信息采集及处理[J].中国新技术新产品,2010(3):41-41.
8郑丽群.基于WEB的智能信息采集及处理系统研究[J].中国新技术新产品,2009(2):17-17.
9张帆,李琳娜,杨炳儒.基于Web的智能信息采集及处理系统设计与实现[J].计算机工程,2007,33(18):265-267. 被引量：9
10韩树人,周贤娟,鄢化彪,刘生华.基于嵌入式Web服务器的远程实时数据采集[J].计算机技术与发展,2008,18(1):206-208. 被引量：15

贵州大学学报（自然科学版）

2006年第3期

浏览历史

内容加载中请稍等...

个性化Web采集算法研究及其应用被引量：1

参考文献16

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

个性化Web采集算法研究及其应用 被引量：1

参考文献16

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

个性化Web采集算法研究及其应用被引量：1