-
题名基于数据质量规则的缺失结果解释约减
被引量:2
- 1
-
-
作者
张奥千
宋韶旭
王建民
-
机构
清华大学软件学院
清华信息科学与技术国家实验室(筹)
信息系统安全教育部重点实验室(清华大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第S1期221-229,共9页
-
基金
国家自然科学基金项目(61202008)
国家"八六三"高技术研究发展计划基金项目(2012AA040911)
-
文摘
由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释"为什么没有why-not"的问题.然而,枚举得到的解释数量庞大,用户无法逐一浏览确认缺失数据.实际上,这些可能的解释中有许多是不合理的,如何约减解释数量存在挑战.根据真实数据试验,利用数据中存在的唯一性约束来进行约减,生成的解释数量仍有几十万个.研究利用数据质量规则(如函数依赖)来高效约减缺失结果的解释.首先,提出一种基于函数依赖的解释约减算法FDR(functional dependencies-based reduction).其次,为了辅助用户浏览生成的解释,进一步研究利用近似函数依赖对解释进行排序.真实数据实验表明,FDR方法能够比现有的方法减少2~5个数量级的解释(从几十万个减少至几千个甚至几十个);利用近似函数依赖排序的Top-1解释精确率达到90%以上.
-
关键词
数据质量
依赖规则
缺失结果解释
函数依赖
近似函数依赖
-
Keywords
data quality
data dependencies
non-answer explanation
functional dependency
approximate functional dependency
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名两两比较模型的Why-not问题解释及排序
- 2
-
-
作者
祁丹蕊
宋韶旭
王建民
-
机构
清华大学软件学院
大数据系统软件国家工程实验室
北京信息科学与技术国家研究中心
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第3期620-647,共28页
-
基金
国家重点研发计划(2016YFB1001101)
国家自然科学基金(61572272
71690231)~~
-
文摘
由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题",即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整性约束,如函数依赖,被用来排除不合格的解释.然而,许多属性在简化后解释中仅仅表示为变量,用户可能仍然无法理解.由于数据稀疏性,许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系,从而对Why-not问题的解释进行排序的方法.首先,重新定义为什么Why-not问题解释的形式没有变量,以便于用户理解;其次,对元组中的相等/不相等关系进行表示,提出在{0,1}表示的元组对的基础上学习统计模型,从而解决直接在原始数据上学习所带来的稀疏性问题,许多模型可以被用来推断概率,包括统计分布、分类和回归;最后,根据推断的概率对解释进行评价和排序.实验结果证明:利用统计、分类和回归方法计算两两关系概率分布的方法,可以为用户寻找Why-not问题的解释并返回较为高质量的解释.
-
关键词
数据质量
数据清洗
条件函数依赖
缺失结果解释
解释排序
-
Keywords
data quality
data cleaning
conditional functional dependency
missing answer explanation
sorting explanation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-