浅析网络数据抓取

Analysis of Network Data Capture

下载PDF

导出

摘要网络数据具备数量大、平台多、增速快、内容多的优势特点。随着网络资源的不断丰富，要想在庞大的资源库中获取自己所需的数据愈发困难。虽然近几年已经出现了不少共享参考数据，但是对于诸多实际应用，有必要进行网络爬虫采集抓取网页收集信息。数据挖掘可以发现不能靠直觉发现的信息数据，甚至是得到违反直觉的数据结论。面对如今更为庞大的数据规模，挖掘得到的信息具备更高的价值和意义。 IT network continues rapid development of today, accumulated a wealth of data resources, networking can help us derive own useful data. Network data includes the number of large, multi-platform, grew faster, the characteristics of the content of many advantages. With a wealth of network resources, in order to get the data they need more difficult in the huge repository. Although in recent years there have been a lot of shared reference data, but for many practical applications, there is still a need for web crawlers crawl the page collecting information gathering. Data mining can find information and data can not be found by intuition, or even to data counterintuitive conclusion. So now we face a much larger scale data mining information obtained have a higher value and significance.

作者孟庆岩

机构地区烟台南山学院

出处《烟台南山学院学报》 2017年第2期59-61,共3页 JOURNAL OF YANTAI NANSHAN UNIVERSITY

关键词网络数据网络爬虫数据挖掘 network data web crawler data mining.

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
2孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：134
3李耀华,杨海燕.论网络爬虫搜索策略[J].山西广播电视大学学报,2013,18(2):48-50. 被引量：2

二级参考文献33

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
3欧阳柳波,李学勇,李国徽,王鑫.网络蜘蛛搜索策略进展研究[J].小型微型计算机系统,2005,26(4):703-706. 被引量：8
4周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
5刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
6孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
7Hersovici M,Heydon A,Mitzenmacher M et al.The shark-search algorithm-an application:Tailored web site mapping. Pro-ceedings of the7th International World Wide Web Conference . 1998
8Kleinberg J.Authoritative sources in a hyperlinked environment. Journal of the ACM . 1998
9J.Cho,H.Garcia-Molina.The evolution of the web and implications for an incremental crawler. Proceedings of the26th Inter-national Conference on Very Large Database . 2000
10M.Najork,J.L.Wiener.Breadth-first crawling yields high-quality pages. Proceedings of the10th International Conference on World Wide Web . 2001

共引文献146

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：5
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
6张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
7李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
8王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3
9王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
10焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.

1魏礼飞.收集信息的策略[J].小学教学参考（语文版）,2001,0(3):22-22.
2张明杰,朱烨行.网络舆情监测系统的设计与实现[J].电脑编程技巧与维护,2017(22):18-19. 被引量：4
3郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
4尹胜燕.互联网时代的人力资源管理新思维及对策[J].山西农经,2017(22):111-111. 被引量：1
5黄伟松,曾玉珠,魏森林.文本挖掘在企业网络舆情分析中的应用研究[J].电脑编程技巧与维护,2017(22):5-8. 被引量：7
6夏行,潘海洋.行政审批服务集成改革的宁波实践解析[J].领导科学,2017(21):45-47.
7王海峰.网络数据安全存储的优化管理[J].网络空间安全,2017,8(10):63-66. 被引量：2
8卢文青,秦志永.教育大数据应用中存在的问题、原因及对策[J].中国教育技术装备,2017,0(17):78-79. 被引量：1
9蒋亚飞.大数据情形数理统计和并行计算方法研究[J].辽宁经济,2017,0(7):21-23.
10于见秋.如何提高科学分组实验教学的有效性[J].考试周刊,2017,0(63):47-47. 被引量：1

烟台南山学院学报

2017年第2期

浏览历史

内容加载中请稍等...

浅析网络数据抓取

参考文献3

二级参考文献33

共引文献146

相关作者

相关机构

相关主题

浏览历史