ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修...ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。展开更多
文摘ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。