期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Python爬虫技术的网页内容文本大数据提取方法研究
1
作者 党浩予 《电脑与电信》 2023年第8期90-93,共4页
现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,... 现如今网站的页面布局较为复杂、展示内容与文本信息较多,在单位时间内提高文本大数据提取数量难度较大,基于此以Python爬虫技术为支撑,开展网页内容文本大数据提取方法的设计研究。首先,对网页内容进行综合解析,获取网页内容文本数据,计算网页内容文本复杂度;其次,引进Python爬虫技术,计算特征信息权重,进行文本大数据特征的识别;最后,通过提取的文本大数据特征,构建网页内容文本相空间,采集大数据矢量信息,根据预设的条件,进行大数据关键信息的维度划分及信息提取。通过实验对比,在相同的条件下对比传统方法,本文设计的方法提取文本大数据数量最多、能力最强,可以提取更多的文本大数据信息,即该方法的文本大数据提取能力较强。 展开更多
关键词 Python爬虫技术 关联维度信息 提取方法 大数据 文本 网页内容
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部