期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Web论坛数据源增量爬虫的研究 被引量:5
1
作者 蔡欣宝 郭若飞 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2010年第9期285-287,共3页
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
关键词 WEB论坛 增量爬虫 站点地图 泊松模型
下载PDF
基于Hadoop的分布式并行增量爬虫技术研究 被引量:4
2
作者 刘芳云 张志勇 李玉祥 《计算机测量与控制》 2018年第10期269-275,308,共8页
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量... 面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。 展开更多
关键词 HADOOP集群 分布式爬虫 并行爬虫 增量爬虫 刷新策略
下载PDF
基于林产品贸易Web信息增量爬虫的研究
3
作者 许美 田世全 陈钊 《农业网络信息》 2016年第2期18-21,共4页
随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林... 随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。 展开更多
关键词 增量爬虫 林产品 动态模型
下载PDF
农业新闻数据源增量爬虫的应用探析
4
作者 杨广召 曹叶 +2 位作者 朱航飞 王家硕 朱家玮 《现代农业科技》 2021年第2期259-260,264,共3页
随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息... 随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值。 展开更多
关键词 农业新闻 增量爬虫 去重
下载PDF
大学图书馆学科服务专项搜索引擎关键技术研究
5
作者 王寒冰 《图书馆学刊》 2017年第5期119-126,共8页
以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术... 以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础。 展开更多
关键词 学科服务 搜索引擎 增量爬虫 网页更新频率预测技术
下载PDF
非合约对地观测数据源的动态汇聚
6
作者 黄克颖 高玥 李国庆 《计算机工程与科学》 CSCD 北大核心 2013年第11期68-75,共8页
互联网上存在大量的免费、公开、有价值的非合约形式的对地观测数据源,这些数据源具有网页查询入口、海量数据隐藏在后台的大型数据库且数据共享平台多样、不同种类空间数据平台难以互联等特点,难以利用传统技术实现数据汇聚和共享。在... 互联网上存在大量的免费、公开、有价值的非合约形式的对地观测数据源,这些数据源具有网页查询入口、海量数据隐藏在后台的大型数据库且数据共享平台多样、不同种类空间数据平台难以互联等特点,难以利用传统技术实现数据汇聚和共享。在阐述目前遇到的问题后,提出了一种基于暗网爬虫架构的非合约异构分布式数据源被动汇聚架构;设计出一套数据源识别标准、非合约式数据源发现机制、非合约式数据源搜索条件树构建模式、非合约式数据源索引机制以及数据源异步更新规则,成功汇聚了分布在国际上不同网络域的五个大型对地观测数据源,包括NASA、USGS、ASAR等三个国际上使用较为广泛的运行性数据源;形成了对地观测数据资源自动化汇聚和更新工具集,最终使用户可以通过统一查询界面获取非合约对地观测数据资源信息。 展开更多
关键词 对地观测数据搜索 非合约式数据源 暗网爬虫 增量爬虫
下载PDF
基于特色农产品的视频智能推送模式研究
7
作者 欧阳黔南 聂笑一 肖毅 《电脑知识与技术(过刊)》 2015年第1X期194-195,共2页
网络视频信息数量虽有井喷式增长,但是利用率依旧不高。加之大多农村地区信息化程度依旧滞后,造成农产品信息的严重不对称,严重阻碍了农村特色农产品的推广。本文通过分析中国网络视频市场的发展历程,对中国现有的视频推送模式进行研究... 网络视频信息数量虽有井喷式增长,但是利用率依旧不高。加之大多农村地区信息化程度依旧滞后,造成农产品信息的严重不对称,严重阻碍了农村特色农产品的推广。本文通过分析中国网络视频市场的发展历程,对中国现有的视频推送模式进行研究,提出基于特色农产品的视频智能推送模式,并对视频智能推送系统中的技术难点及实现步骤进行了详细阐述。 展开更多
关键词 视频智能推送系统 增量爬虫技术 特色农产品
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部