-
题名基于Top-k查询约束的深网增量爬取
被引量:1
- 1
-
-
作者
江俊彦
彭智勇
吴小莹
-
机构
武汉大学软件工程国家重点实验室
武汉大学计算机学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2017年第1期43-53,共11页
-
基金
国家自然科学基金项目(No.61232002
61202035)
武汉创新团队计划项目(No.2014070504020237)资助~~
-
文摘
深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.
-
关键词
Top—k查询
web数据库爬取
数据质量
查询代价
查询选择
-
Keywords
Top-k Query, web Database Crawling, Data Quality, Query Cost, Query Selection.
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP391.3
[自动化与计算机技术—计算机应用技术]
-