-
题名基于用户查询与样本间匹配度评估的分层抽样策略
- 1
-
-
作者
邬志罡
荆一楠
何震瀛
王晓阳
-
机构
复旦大学计算机科学技术学院
上海市数据科学重点实验室(复旦大学)
上海智能电子与系统研究院
-
出处
《计算机应用与软件》
北大核心
2019年第8期196-202,共7页
-
基金
国家自然科学基金项目(61732004)
国家重点研发计划项目(2018YFB1004404)
上海科技创新行动计划项目(16DZ11002001)
-
文摘
在数据探索性分析场景下,用户倾向于借助抽样系统获取近似查询结果来换取更快的查询速度。现有的抽样系统通常假设用户的历史查询记录能很好地表征未来的查询情况,从而针对特定的查询特征生成特定的抽样策略。然而,在现实场景中,用户探索意图变化丰富,用户查询特征的稳定性假设通常无法得到保证。为解决上述问题,提出一种评估任意用户查询与样本间匹配度的方法。离线训练生成多份样本集,并在应对具体查询时自动选取最匹配样本集进行近似结果计算。离线样本集的生成是以在所有可能的用户查询上的预期匹配度损失总和最小作为训练目标。实验结果表明,在真实数据集上,该抽样系统与现有方法相比,将近似结果的精确度提高了26.3%。
-
关键词
抽样系统
近似查询处理
分层抽样
优化问题
-
Keywords
Sampling system
Approximate query processing
Stratified sampling
Optimization problem
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-