-
题名使用lxml解析古诗文网网页数据
- 1
-
-
作者
崔敏
宋建毅
-
机构
济南职业学院
-
出处
《新潮电子》
2023年第10期43-45,共3页
-
文摘
本文在理解lxml入门知识的基础上,以古诗文网为案例,讲解如何使用lxml库对网页数据进行解析和爬取,并将爬取的数据进行存储。在案例解析中,首先分析了古诗文网的数据结构,明确了要爬取数据的XPath路径,随后分成3个步骤编写代码实现数据的爬取和保存,分别是获取网页源代码,使用lxml解析数据并将数据输出在控制台上,将爬取的数据存储为CSV文件。
-
关键词
lxml
XPATH
CSV
分析数据
爬取数据
存储数据
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于Python的聚焦爬虫的初步设计与实现
被引量:6
- 2
-
-
作者
杜超
-
机构
湖北第二师范学院
-
出处
《现代制造技术与装备》
2020年第12期30-31,共2页
-
文摘
网络爬虫主要分为通用爬虫和聚焦爬虫,前者通常指搜索引擎的爬虫,后者是指针对特定网站的爬虫。聚焦爬虫用于弥补通用搜索引擎的缺陷,应用在定向获取信息的检索工具即垂直搜索引擎上。以豆瓣图书信息获取为例,介绍网络爬虫的工作原理、分类、应用场景和涉及的关键技术,详细研究了基于Python的聚焦爬虫设计与实现的基本方法和流程。
-
关键词
网络爬虫
PYTHON
lxml
-
Keywords
web crawler
Python
lxml
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
TP312.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Python的豆瓣图书数据的爬取与分析
被引量:1
- 3
-
-
作者
张娇
-
机构
晋城职业技术学院
-
出处
《晋城职业技术学院学报》
2023年第4期83-86,共4页
-
基金
晋城职业技术学院2021年度课题《基于职位需求分析的大数据技术与应用高职专业课程体系研究》(项目编号:LX2134)。
-
文摘
运用基于Python语言的第三方库Lxml,对豆瓣Top250的图书信息进行爬取、存储、分析,在爬虫设计、分析网页、代码编写等方面形成了完整的过程构架,以期为相关技术的应用提供参考。
-
关键词
PYTHON
lxml
REQUESTS
matplotlib
-
Keywords
Python
lxml
requests
matplotlib
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于开始定界符的自动Web信息抽取
被引量:1
- 4
-
-
作者
白钰洁
-
机构
东北石油大学计算机与信息技术学院
-
出处
《微型电脑应用》
2019年第11期141-142,146,共3页
-
文摘
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。
-
关键词
WEB信息抽取
循环神经网络
开始定界符
lxml
-
Keywords
Web information extraction
Recurrent neural network
Start delimiter
lxml
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于爬虫技术的图书购买推荐与比价策略研究
- 5
-
-
作者
卢江
刘文正
-
机构
天津商业大学宝德学院
-
出处
《科技资讯》
2021年第1期214-219,共6页
-
基金
2019年天津市大学生创新项目《基于爬虫技术的图书购买推荐与比价策略研究》(项目编号:2019 13660017)。
-
文摘
在大数据背景下,大量数据的堆叠使人们在进行人工提取有效信息时,存在诸多不便。网络爬虫技术可以自动完成网络信息的收集和分析,从而方便用户获得有效信息。该文以图书购买推荐与比价策略的研究为重点,主要介绍了lxml库与Python相关技术,以及图书比价的策略特点,为用户提供更直观的商品指标,同时存储商品信息为后续的进一步优化提供数据源。
-
关键词
爬虫技术
lxml
PYTHON
比价策略
-
Keywords
Crawler technology
lxml
Python
Price comparison strategy
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-