期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
Web论坛数据源增量爬虫的研究 被引量:5
1
作者 蔡欣宝 郭若飞 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第9期285-287,共3页
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
关键词 WEB论坛 增量爬虫 站点地图 泊松模型
下载PDF
基于版块的论坛增量搜集策略 被引量:2
2
作者 杜言琦 马军 《中文信息学报》 CSCD 北大核心 2010年第3期62-68,共7页
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛... 该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。 展开更多
关键词 计算机应用 中文信息处理 增量搜集 论坛爬虫 延迟
下载PDF
基于网络论坛的股市分析方法 被引量:1
3
作者 吴晶 陈仪香 刘道明 《计算机工程》 CAS CSCD 2012年第13期254-256,259,共4页
为更好地揣摩大众股民的心理及情感,提出一种基于网络论坛的股市分析方法。根据python实现相应的网络爬虫,利用该爬虫获取网络论坛中的所有帖子,对每日新帖子的数量进行统计分析,针对每个帖子中的文本内容设计分析工具,以进行情感分析,... 为更好地揣摩大众股民的心理及情感,提出一种基于网络论坛的股市分析方法。根据python实现相应的网络爬虫,利用该爬虫获取网络论坛中的所有帖子,对每日新帖子的数量进行统计分析,针对每个帖子中的文本内容设计分析工具,以进行情感分析,并将这些情感结果进行统计。实验结果表明,通过对比同一时期内的中国股市走势图,该方法能对其进行较为准确的分析。 展开更多
关键词 网络爬虫 股市分析 情感分析 网络论坛
下载PDF
基于旅游博客和论坛提高旅游产品质量的模型研究 被引量:2
4
作者 张军洲 连云凯 《旅游论坛》 2012年第2期84-86,共3页
分析了旅游博客和论坛对旅游产业的影响,以及通过软件自动方式使用旅游博客和论坛分析的优势,并给出了实现的步骤,分析了其中的核心问题,给出解决方法,从而为旅游管理者改善旅游产品提供方向。
关键词 旅游博客和论坛 网络爬虫 旅游产品质量 文本提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部