期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Top-k查询约束的深网增量爬取 被引量:1
1
作者 江俊彦 彭智勇 吴小莹 《模式识别与人工智能》 EI CSCD 北大核心 2017年第1期43-53,共11页
深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.... 深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量. 展开更多
关键词 Top—k查询 web数据库爬取 数据质量 查询代价 查询选择
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部