期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
网络论坛爬虫的设计 被引量:2
1
作者 唐勇 《电脑知识与技术》 2012年第1X期570-572,共3页
该文首先通过设计一种论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后将这些XML文件转为倒排文档的索引文件,从而满足了用户对多论坛信息获取的需求。
关键词 论坛爬虫 网络论坛 信息聚合
下载PDF
基于版块的论坛增量搜集策略 被引量:2
2
作者 杜言琦 马军 《中文信息学报》 CSCD 北大核心 2010年第3期62-68,共7页
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛... 该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。 展开更多
关键词 计算机应用 中文信息处理 增量搜集 论坛爬虫 延迟
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部