期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例 被引量:4
1
作者 庄旭东 王志坚 《科技风》 2019年第6期54-54,56,共2页
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现... 随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。 展开更多
关键词 R语言 网络爬虫 网页信息抓取 二手房
下载PDF
基于Scrapy的招聘信息爬虫设计与实现 被引量:4
2
作者 鲁丰玲 《科技资讯》 2019年第20期7-10,共4页
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架... 随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。 展开更多
关键词 PYTHON 网络爬虫 主题网络爬虫 网页信息抓取
下载PDF
基于Scrapy 爬取招聘信息的研究 被引量:1
3
作者 林观德 《电脑知识与技术》 2020年第35期54-55,共2页
在信息浩如烟海的大数据时代,如何高效获取万维网上所需的信息,是抢占先机的关键。文章基于Scrapy的框架及工作原理展开论述,使用Scrapy定向爬取百度社会招聘网站当中的相关招聘信息数据,对所爬取的招聘信息数据进行处理和分析,分析结... 在信息浩如烟海的大数据时代,如何高效获取万维网上所需的信息,是抢占先机的关键。文章基于Scrapy的框架及工作原理展开论述,使用Scrapy定向爬取百度社会招聘网站当中的相关招聘信息数据,对所爬取的招聘信息数据进行处理和分析,分析结果可为毕业生就业前收集招聘信息提供参考。 展开更多
关键词 Scrapy 网络爬虫 网页信息抓取
下载PDF
System of twice-gathering information and research of information fingerprint HashTrie
4
作者 沈阳 朱婵元 李舒晨 《Journal of Southeast University(English Edition)》 EI CAS 2008年第3期381-384,共4页
This paper presents a twice-gathering information interactive system prototype of e-government based on the condition that the Intranet and the Extranet are physical isolated.Users in the Extranet can gather links of ... This paper presents a twice-gathering information interactive system prototype of e-government based on the condition that the Intranet and the Extranet are physical isolated.Users in the Extranet can gather links of the latest related information from client software which is previously collected by web alert in the Internet.Finally,through ferry-type transport devices,information is browsed by users in the Intranet,and it is transported to a storage device and synchronized with the web platform in the Intranet.During information gathering in the Extranet and data synchronization in the Intranet,it is essential to avoid repeated gathering and copying by means of comparing the extracted information fingerprints gathered from the web pages.This prototype uses HashTrie to store information fingerprints.During testing,the structure based on HashTrie is 2.28 times faster than the Darts(double array Trie)which is the fastest structure in the existing applied patent.The existing 12 types of high speed Hash functions serving for HashTrie are also implemented.When the dictionary content is larger than 5×105 words,the PJWHash or the SuperFastHush function can be adopted;when the dictionary content is 105 words, CalcStrCR32 and ELFHash functions can be adopted. 展开更多
关键词 physical isolation twice-gathering duplicated web pages elimination information fingerprint HashTrie
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部