-
题名Web论坛数据源增量爬虫的研究
被引量:5
- 1
-
-
作者
蔡欣宝
郭若飞
赵朋朋
崔志明
-
机构
苏州大学智能信息处理及应用研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第9期285-287,共3页
-
基金
国家自然科学基金资助项目(60673092)
2008年江苏省重大科技支撑与自主创新基金资助项目(BE2008044)
-
文摘
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
-
关键词
WEB论坛
增量爬虫
站点地图
泊松模型
-
Keywords
Web forum
incremental crawler
site map
Poisson model
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Hadoop的分布式并行增量爬虫技术研究
被引量:4
- 2
-
-
作者
刘芳云
张志勇
李玉祥
-
机构
河南科技大学信息工程学院
-
出处
《计算机测量与控制》
2018年第10期269-275,308,共8页
-
基金
国家自然科学基金(61772174
61370220)
+1 种基金
河南省科技创新杰出人才计划项目(174200510011)
河南省高校科技创新团队支持计划项目(15IRTSTHN010)
-
文摘
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。
-
关键词
HADOOP集群
分布式爬虫
并行爬虫
增量爬虫
刷新策略
-
Keywords
Hadoop cluster
distributed crawler
parallel crawler
incremental crawler
refresh strategy
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于林产品贸易Web信息增量爬虫的研究
- 3
-
-
作者
许美
田世全
陈钊
-
机构
北京林业大学
-
出处
《农业网络信息》
2016年第2期18-21,共4页
-
文摘
随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。
-
关键词
增量爬虫
林产品
动态模型
-
Keywords
incremental crawling
forest product
dynamic model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名农业新闻数据源增量爬虫的应用探析
- 4
-
-
作者
杨广召
曹叶
朱航飞
王家硕
朱家玮
-
机构
塔里木大学信息工程学院
-
出处
《现代农业科技》
2021年第2期259-260,264,共3页
-
基金
南疆红枣生产管理信息化系统示范与推广(19/1117831)。
-
文摘
随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值。
-
关键词
农业新闻
增量爬虫
去重
-
Keywords
agricultural news
incremental crawler
deduplication
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大学图书馆学科服务专项搜索引擎关键技术研究
- 5
-
-
作者
王寒冰
-
机构
东北农业大学
-
出处
《图书馆学刊》
2017年第5期119-126,共8页
-
文摘
以承担"黑龙江省原料乳生产生物性风险来源分析与防控"研究的东北农业大学食品学院、黑龙江省疾病预防控制中心和哈尔滨市生牛奶监督检验所为学科服务对象,建立专项信息资源搜索引擎。描述了专项信息资源搜索引擎中的关键技术:即面向增量爬虫的网页更新频率预测技术,该技术使用泊松分布来预测特定网页更新变化情况,并通过实验验证了该技术的优越性能,为后续研究提供了基础。
-
关键词
学科服务
搜索引擎
增量爬虫
网页更新频率预测技术
-
分类号
G252
[文化科学—图书馆学]
-
-
题名非合约对地观测数据源的动态汇聚
- 6
-
-
作者
黄克颖
高玥
李国庆
-
机构
中国科学院遥感与数字地球研究所
中国科学院大学
中国科学院计算机网络信息中心
-
出处
《计算机工程与科学》
CSCD
北大核心
2013年第11期68-75,共8页
-
基金
国家863计划资助项目(2012AA12A301)
-
文摘
互联网上存在大量的免费、公开、有价值的非合约形式的对地观测数据源,这些数据源具有网页查询入口、海量数据隐藏在后台的大型数据库且数据共享平台多样、不同种类空间数据平台难以互联等特点,难以利用传统技术实现数据汇聚和共享。在阐述目前遇到的问题后,提出了一种基于暗网爬虫架构的非合约异构分布式数据源被动汇聚架构;设计出一套数据源识别标准、非合约式数据源发现机制、非合约式数据源搜索条件树构建模式、非合约式数据源索引机制以及数据源异步更新规则,成功汇聚了分布在国际上不同网络域的五个大型对地观测数据源,包括NASA、USGS、ASAR等三个国际上使用较为广泛的运行性数据源;形成了对地观测数据资源自动化汇聚和更新工具集,最终使用户可以通过统一查询界面获取非合约对地观测数据资源信息。
-
关键词
对地观测数据搜索
非合约式数据源
暗网爬虫
增量爬虫
-
Keywords
earth observation data
search non-contractual data sources
deep web crawler
incremental crawler
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于特色农产品的视频智能推送模式研究
- 7
-
-
作者
欧阳黔南
聂笑一
肖毅
-
机构
湖南农业大学信息科学技术学院
-
出处
《电脑知识与技术(过刊)》
2015年第1X期194-195,共2页
-
文摘
网络视频信息数量虽有井喷式增长,但是利用率依旧不高。加之大多农村地区信息化程度依旧滞后,造成农产品信息的严重不对称,严重阻碍了农村特色农产品的推广。本文通过分析中国网络视频市场的发展历程,对中国现有的视频推送模式进行研究,提出基于特色农产品的视频智能推送模式,并对视频智能推送系统中的技术难点及实现步骤进行了详细阐述。
-
关键词
视频智能推送系统
增量爬虫技术
特色农产品
-
分类号
F323.3
[经济管理—产业经济]
TP391.3
[自动化与计算机技术—计算机应用技术]
-