期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Python爬虫技术的网页内容文本大数据提取方法研究
1
作者
党浩予
《电脑与电信》
2023年第8期90-93,共4页
现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,...
现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,计算网页内容文本复杂度;其次,引进Python爬虫技术,计算特征信息权重,进行文本大数据特征的识别;最后,通过提取的文本大数据特征,构建网页内容文本相空间,采集大数据矢量信息,根据预设的条件,进行大数据关键信息的维度划分及信息提取。通过实验对比,在相同的条件下对比传统方法,本文设计的方法提取文本大数据数量最多、能力最强,可以提取更多的文本大数据信息,即该方法的文本大数据提取能力较强。
展开更多
关键词
Python爬虫技术
关联维度信息
提取方法
大数据
文本
网页内容
下载PDF
职称材料
题名
基于Python爬虫技术的网页内容文本大数据提取方法研究
1
作者
党浩予
机构
西安明德理工学院
出处
《电脑与电信》
2023年第8期90-93,共4页
文摘
现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,计算网页内容文本复杂度;其次,引进Python爬虫技术,计算特征信息权重,进行文本大数据特征的识别;最后,通过提取的文本大数据特征,构建网页内容文本相空间,采集大数据矢量信息,根据预设的条件,进行大数据关键信息的维度划分及信息提取。通过实验对比,在相同的条件下对比传统方法,本文设计的方法提取文本大数据数量最多、能力最强,可以提取更多的文本大数据信息,即该方法的文本大数据提取能力较强。
关键词
Python爬虫技术
关联维度信息
提取方法
大数据
文本
网页内容
Keywords
Python crawler technology
associated dimension information
extraction method
big data
text
Web page content
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Python爬虫技术的网页内容文本大数据提取方法研究
党浩予
《电脑与电信》
2023
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部