期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Python的通用论坛正文提取研究 被引量:1
1
作者 赵光亮 令狐雨薇 +3 位作者 朱德孙 赵顺艳 杨陶 陈凤 《电脑知识与技术》 2018年第8X期259-260,共2页
该文主要探讨BBS类论坛网页的文本数据的爬取与分析。首先,对该类论坛网页的HTML结构进行研究分析。在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖。其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工... 该文主要探讨BBS类论坛网页的文本数据的爬取与分析。首先,对该类论坛网页的HTML结构进行研究分析。在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖。其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工具构建该类型论坛网页文本数据的抓取算法。为了便于用户阅读文本,还需要构建整理、清洗网页文本数据的算法,将抓取的网页文本数据整理为主题和回帖对应的json终极数据格局。 展开更多
关键词 通用网络爬虫 BBS 正则表达式 PYTHON语言
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部