期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
使用lxml解析古诗文网网页数据
1
作者 崔敏 宋建毅 《新潮电子》 2023年第10期43-45,共3页
本文在理解lxml入门知识的基础上,以古诗文网为案例,讲解如何使用lxml库对网页数据进行解析和爬取,并将爬取的数据进行存储。在案例解析中,首先分析了古诗文网的数据结构,明确了要爬取数据的XPath路径,随后分成3个步骤编写代码实现数据... 本文在理解lxml入门知识的基础上,以古诗文网为案例,讲解如何使用lxml库对网页数据进行解析和爬取,并将爬取的数据进行存储。在案例解析中,首先分析了古诗文网的数据结构,明确了要爬取数据的XPath路径,随后分成3个步骤编写代码实现数据的爬取和保存,分别是获取网页源代码,使用lxml解析数据并将数据输出在控制台上,将爬取的数据存储为CSV文件。 展开更多
关键词 lxml XPATH CSV 分析数据 爬取数据 存储数据
下载PDF
基于Python的聚焦爬虫的初步设计与实现 被引量:6
2
作者 杜超 《现代制造技术与装备》 2020年第12期30-31,共2页
网络爬虫主要分为通用爬虫和聚焦爬虫,前者通常指搜索引擎的爬虫,后者是指针对特定网站的爬虫。聚焦爬虫用于弥补通用搜索引擎的缺陷,应用在定向获取信息的检索工具即垂直搜索引擎上。以豆瓣图书信息获取为例,介绍网络爬虫的工作原理、... 网络爬虫主要分为通用爬虫和聚焦爬虫,前者通常指搜索引擎的爬虫,后者是指针对特定网站的爬虫。聚焦爬虫用于弥补通用搜索引擎的缺陷,应用在定向获取信息的检索工具即垂直搜索引擎上。以豆瓣图书信息获取为例,介绍网络爬虫的工作原理、分类、应用场景和涉及的关键技术,详细研究了基于Python的聚焦爬虫设计与实现的基本方法和流程。 展开更多
关键词 网络爬虫 PYTHON lxml
下载PDF
基于Python的豆瓣图书数据的爬取与分析 被引量:1
3
作者 张娇 《晋城职业技术学院学报》 2023年第4期83-86,共4页
运用基于Python语言的第三方库Lxml,对豆瓣Top250的图书信息进行爬取、存储、分析,在爬虫设计、分析网页、代码编写等方面形成了完整的过程构架,以期为相关技术的应用提供参考。
关键词 PYTHON lxml REQUESTS matplotlib
下载PDF
基于开始定界符的自动Web信息抽取 被引量:1
4
作者 白钰洁 《微型电脑应用》 2019年第11期141-142,146,共3页
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取... 为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。 展开更多
关键词 WEB信息抽取 循环神经网络 开始定界符 lxml
下载PDF
基于爬虫技术的图书购买推荐与比价策略研究
5
作者 卢江 刘文正 《科技资讯》 2021年第1期214-219,共6页
在大数据背景下,大量数据的堆叠使人们在进行人工提取有效信息时,存在诸多不便。网络爬虫技术可以自动完成网络信息的收集和分析,从而方便用户获得有效信息。该文以图书购买推荐与比价策略的研究为重点,主要介绍了lxml库与Python相关技... 在大数据背景下,大量数据的堆叠使人们在进行人工提取有效信息时,存在诸多不便。网络爬虫技术可以自动完成网络信息的收集和分析,从而方便用户获得有效信息。该文以图书购买推荐与比价策略的研究为重点,主要介绍了lxml库与Python相关技术,以及图书比价的策略特点,为用户提供更直观的商品指标,同时存储商品信息为后续的进一步优化提供数据源。 展开更多
关键词 爬虫技术 lxml PYTHON 比价策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部