期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
Python模拟登录网站并抓取网页的方法 被引量:16
1
作者 刘艳平 俞海英 戎沁 《微型电脑应用》 2015年第2期58-60,共3页
首先,阐述了模拟登录网站技术的当下需求及应用场景,之后,介绍了网站的登录的一般机制及流程,最后,用python实现了模拟登录百度账号并抓取网页数据,并给出了相关代码。
关键词 WEB挖掘 PYTHON 抓取网页
下载PDF
垂直搜索中网页抓取技术的研究 被引量:5
2
作者 陈哲 《科技信息》 2009年第22期I0182-I0182,共1页
网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面... 网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。 展开更多
关键词 网络爬虫 网页搜集 网页抓取
下载PDF
基于linux的网页抓取器的设计 被引量:1
3
作者 龚成清 《电脑开发与应用》 2011年第2期73-74,77,共3页
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能。网页抓取器可以分为网络层和应用层,而网络层是关键。基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方... 网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能。网页抓取器可以分为网络层和应用层,而网络层是关键。基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效。 展开更多
关键词 样本页面 规则 网页抓取 多线程 EPOLL
下载PDF
基于网页抓取分析和统计压缩模型的垃圾邮件过滤系统研究
4
作者 王玮 《信息网络安全》 2013年第6期50-53,共4页
垃圾邮件过滤是当前计算机领域的热点问题。文章针对目前网页抓取分析技术不能深入分析网页内容的缺点,提出了一种优化的网页抓取分析技术,能够对网页提取一些更为深入的特征,并以此为基础,完成了基于网页抓取分析和统计压缩模型的垃圾... 垃圾邮件过滤是当前计算机领域的热点问题。文章针对目前网页抓取分析技术不能深入分析网页内容的缺点,提出了一种优化的网页抓取分析技术,能够对网页提取一些更为深入的特征,并以此为基础,完成了基于网页抓取分析和统计压缩模型的垃圾邮件过滤系统的设计与实现。文章创新地提取出5种新的特征,实验结果表明,这些特征对于增高TPR(TruePositiveRate,真正类率),降低FPR(FalsePositiveRate,负正类率),提升垃圾邮件过滤的效率和准确性具有显著作用。 展开更多
关键词 垃圾邮件过滤 网页抓取分析 统计压缩模型
下载PDF
基于Scrapy的新闻网页数据抓取设计 被引量:3
5
作者 秦亚红 普措才仁 《电子技术与软件工程》 2020年第4期170-171,共2页
本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研... 本文使用Python开发语言、Scrapy爬虫框架以及MySQL数据库设计抓取新闻网页中的新闻数据,并存储到数据库中。新闻语言文本自身的真实性和时代性,具有非常重要的研究意义和价值。网络爬虫技术使网上新闻数据得以获取、利用,为新闻信息研究提供了数据支持,保证了相关研究工作的顺利开展。 展开更多
关键词 网络爬虫 网页数据抓取 Scrapy
下载PDF
蜜蜂群并行网页抓取系统 被引量:2
6
作者 郭邦财 《软件导刊》 2011年第1期68-70,共3页
介绍了网页抓取的工作原理和蜜蜂群的基本活动,在充分研究了蜂蜜群的分工后,结合网页抓取设计的时候应该考虑的因素和策略,提出一个基于蜜蜂群的并行网页抓取系统的设计方案。
关键词 蜜蜂群 并行系统 网页抓取
下载PDF
搜索引擎系统中网页抓取模块研究
7
作者 金婵鸣 徐东平 《现代计算机》 2010年第3期36-39,共4页
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎... 如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败。鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑。 展开更多
关键词 搜索引擎 网页抓取模块 开源网络蜘蛛 扩展
下载PDF
基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例 被引量:4
8
作者 庄旭东 王志坚 《科技风》 2019年第6期54-54,56,共2页
随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现... 随着互联网的快速发展,大数据时代的来临,网络上的数据和信息呈爆炸性增长,网络爬虫技术越来越受欢迎。本文通过以抓取二手房出售数据为例,探索R语言爬虫技术的网页信息抓取方法,发现基于R语言的rvest函数包与Selector Gadget工具实现的网页信息爬取方法比传统方法更加简单快捷。 展开更多
关键词 R语言 网络爬虫 网页信息抓取 二手房
下载PDF
基于Python爬虫技术的网页数据抓取方法 被引量:5
9
作者 刘萍 《信息与电脑》 2022年第14期169-171,共3页
由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网... 由于对网页数据的爬取存在一定的完整性问题,导致爬取质量和效率较低,为此提出基于Python爬虫技术的网页数据抓取方法。首先,以网页数据的非线性时间序列关键点为节点,构建Python爬虫网络相空间格局;其次,利用Python爬虫技术在划分的网络相空间格局内抓取目标数据;最后,Python爬虫以爬取目标为数据特性,以空间划分结果为基础,对库中的页面进行个性化标记,抽取页面包含的所有统一资源定位系统(Uniform Resource Locator,URL)信息,将其与已抓取队列信息进行比较,确定爬取结果的完整性。测试结果表明,设计方法可以适应不同网络环境,实现对网页数据的快速、有效抓取。 展开更多
关键词 Python爬虫技术 网页数据抓取 非线性时间序列
下载PDF
基于云平台的网页抓取架构的研究与设计
10
作者 范顺利 周亦敏 《计算机时代》 2018年第9期21-23,27,共4页
随着网络数据的迅速增长,网页数据抓取在处理大量数据时遇到了一些挑战,例如大量数据存储,需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构,该架构使用AWS(Amazon Web Services)作为云平台,按需配置计... 随着网络数据的迅速增长,网页数据抓取在处理大量数据时遇到了一些挑战,例如大量数据存储,需要密集计算能力以及数据提取的可靠性。提出了一个基于云平台的网页数据抓取架构,该架构使用AWS(Amazon Web Services)作为云平台,按需配置计算资源和数据存储;Selenium作为网页自动化工具,调用Web Driver API能够模拟用户使用浏览器。通过实验,比较了该架构与其他基于云的网页抓取架构的不同,并分析了它的优势。 展开更多
关键词 AWS 网页抓取 大数据 SELENIUM
下载PDF
ViewState在ASP.NET网页抓取中的应用 被引量:1
11
作者 申圣兵 刘家乐 《科技风》 2017年第3期63-63,共1页
本文主要介绍_View State属性值的动态获取方法,并通过教师课程表介绍它在ASP.NET网页抓取中的应用方法及注意事项。
关键词 ViewState 网页抓取 教师课程表
下载PDF
海量大数据定向采样有差别挖掘算法仿真
12
作者 宁滔 《现代电子技术》 北大核心 2024年第9期164-168,共5页
在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算... 在大数据中,不同类别之间可能存在数据分布不均衡的情况,即某些类别的数据样本数量远远少于其他类别。这种情况下,传统的采样方法无法正确反映所有类别的特征和差异。为提升大数据信息的应用性,文中研究海量大数据定向采样有差别挖掘算法。以网站统一资源定位器(URL)初始化为基础,在网络上抓取网页,采集网页的超文本标记语言(HTML)数据,提取定向数据的相关链接,并将其导入URL队列。根据网络搜索策略,实施相关的数据搜索和处理。完成数据搜索后,将自动进行下一网页的URL,继续进行海量大数据定向采样。结合模糊特征匹配与检测滤波方法实现大数据定向采样过程中的抗干扰处理。采用粗糙集算法实施挖掘,利用扩展差别矩阵对大数据决策表内的值实施约简,实现海量大数据的模式分类。实验结果显示,该算法数据采集过程中的丢包率基本控制在0.2%以下,具有较高的鲁棒性。 展开更多
关键词 海量大数据 网页抓取 定向采样 滤波处理 去冗余 粗糙集 扩展差别矩阵 决策规则
下载PDF
基于网页提取与分析的IRIS台站元数据自动同步技术
13
作者 商杰 王晓明 +4 位作者 盖磊 许朝阳 李健 邱宏茂 王娟 《地震地磁观测与研究》 2019年第2期150-154,共5页
基于网页提取与分析技术,开发IRIS台站元数据抓取程序,设计并建立禁核试核查北京国家数据中心(NDC)的IRIS台站元数据库,实现IRIS台站元数据从IRIS向NDC的定期自动同步。作为NDC运行的基础支撑数据库之一,该数据库为NDC开展辅助性地震监... 基于网页提取与分析技术,开发IRIS台站元数据抓取程序,设计并建立禁核试核查北京国家数据中心(NDC)的IRIS台站元数据库,实现IRIS台站元数据从IRIS向NDC的定期自动同步。作为NDC运行的基础支撑数据库之一,该数据库为NDC开展辅助性地震监测数据的自动台站筛选和数据申请奠定了技术基础。 展开更多
关键词 网页抓取 IRIS 台站元数据
下载PDF
大豆主题网页资源采集系统的研究 被引量:1
14
作者 郭俊军 孟繁疆 +1 位作者 张喜海 魏紫京 《农机化研究》 北大核心 2014年第3期182-185,共4页
农业专业搜索引擎对特定主题的农业信息进行检索,其信息量多、精确度低。针对此现状,以开源搜索引擎Nutch为技术框架,对大豆主题网页资源采集系统进行了研究与设计。以大豆信息为主题,研究了主题相关度判别技术,借鉴BM25F模型的分域思... 农业专业搜索引擎对特定主题的农业信息进行检索,其信息量多、精确度低。针对此现状,以开源搜索引擎Nutch为技术框架,对大豆主题网页资源采集系统进行了研究与设计。以大豆信息为主题,研究了主题相关度判别技术,借鉴BM25F模型的分域思想、基于向量空间模型,提出了大豆主题相关度判别算法。在Nutch中引入IKAnalyzer中文分词工具包,实现了大豆主题相关度的判别。实验结果表明,该算法能够显著地提高大豆主题网页资源采集的准确率。 展开更多
关键词 网页抓取 大豆主题 主题相关度 农业 搜索引擎
下载PDF
正则表达式在油价事件网页提取中的应用 被引量:1
15
作者 邵增荣 李英 范体军 《现代图书情报技术》 CSSCI 北大核心 2009年第2期83-88,共6页
利用正则表达式在字符串操作上的优势,实现从不规则含噪页面中对油价事件信息的抓取,指出实现中的难点要点,并验证正则表达式在字符串处理中强大的结构描述能力。
关键词 正则表达式 网页数据抓取 数据清洗 字符串处理
下载PDF
面向中文搜索引擎的网页结构化信息获取系统的设计与实现
16
作者 吕青松 曹书林 +2 位作者 王一帆 尹乾 郑新 《信息与电脑》 2016年第23期172-174,共3页
搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实... 搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。 展开更多
关键词 搜索引擎 网页抓取 信息提取 敏感词过滤 PYTHON
下载PDF
一种智能网页数据采集系统设计 被引量:2
17
作者 李世忠 《电子技术与软件工程》 2018年第6期169-169,共1页
设计了一种网页数据采集系统。采集的数据统一保存到系统数据库,系统辅助用户完成常规采集参数的设置,包括访问间隔时间及数据存储方式等。用户对需要采集的数据进行描述,多次训练系统进行数据采集,生成数据识别模型。在目标网页发生变... 设计了一种网页数据采集系统。采集的数据统一保存到系统数据库,系统辅助用户完成常规采集参数的设置,包括访问间隔时间及数据存储方式等。用户对需要采集的数据进行描述,多次训练系统进行数据采集,生成数据识别模型。在目标网页发生变化时,在一定的范围内根据识别模型自动进行修正以适应新的网页结构,减少采集工作的人工干预工作量。 展开更多
关键词 数据采集系统 HTML 网页抓取
下载PDF
网页新闻信息预处理中SST树正文提取方法研究
18
作者 刘林浩 《微计算机信息》 2012年第10期466-468,共3页
论文详细描述了在新闻信息挖掘和分析系统中的数据准备阶段中信息获取和信息处理模块的实现细节。从网页获取方式的采用开始,到网页获取的具体实现,再介绍了网页信息预处理实现的整个过程。其中,重点提到了网页正文信息的提取过程中,对... 论文详细描述了在新闻信息挖掘和分析系统中的数据准备阶段中信息获取和信息处理模块的实现细节。从网页获取方式的采用开始,到网页获取的具体实现,再介绍了网页信息预处理实现的整个过程。其中,重点提到了网页正文信息的提取过程中,对基于模板的SST树的正文提取方法的优化,通过优化从而使得对正文提取的准确度更高,对后续的分析过程也提供了帮助。接着描述了为了提高网页信息分析阶段效率而进行的索引建立的过程以及数据存储的方式。并在最后对整个实验进行了功能性的分析和展望。 展开更多
关键词 新闻信息预处理 网页抓取 基于模版的SST树提取方法
下载PDF
用VC++编程实现Web文本资料的抓取
19
作者 马创新 《电脑编程技巧与维护》 2012年第7期73-75,共3页
用VC++编程实现了Web文本资料的抓取。它能够获取指定网页上的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件夹中。
关键词 VC++ 文本资料采集 网页抓取
下载PDF
Surf Saver留住精彩网页
20
作者 河柳 《广东电脑与电讯》 2003年第01M期79-79,共1页
茫茫网海,总有精彩呈现;看到令你心动的一页的时候,你会做何选择呢?是用OfflineExploeror、Teleportpro或者WEBZIP等高线浏览软件将网页全部抓取下来吗?这显然太浪费时间而且也占用了宝贵的硬盘空间。那有没有直奔主题切中要害的离线浏... 茫茫网海,总有精彩呈现;看到令你心动的一页的时候,你会做何选择呢?是用OfflineExploeror、Teleportpro或者WEBZIP等高线浏览软件将网页全部抓取下来吗?这显然太浪费时间而且也占用了宝贵的硬盘空间。那有没有直奔主题切中要害的离线浏览软件呢?回答是肯定的。SurfSaver就是一个专业的网页抓取软件。 展开更多
关键词 网页抓取软件 操作方法 SurfSaver
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部