期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种基于确定度的交互式迭代数据清洗方法
1
作者 孙辞海 王洪亚 +1 位作者 郭开彦 程炜东 《智能计算机与应用》 2023年第8期1-10,共10页
自动化的数据清洗技术可以极大地提升数据清洗的效率,但会导致一定的错误率和不可靠的结果,通过引入人的参与,对建议修改值进行检查可避免错误的修改,同时对最终结果的可靠性有直观的评估。基于上述考虑,本文提出了一种基于确定度的交... 自动化的数据清洗技术可以极大地提升数据清洗的效率,但会导致一定的错误率和不可靠的结果,通过引入人的参与,对建议修改值进行检查可避免错误的修改,同时对最终结果的可靠性有直观的评估。基于上述考虑,本文提出了一种基于确定度的交互式迭代清洗方法,该方法利用主动学习技术,将基于统计方法的数据清洗技术和人的参与相结合,在迭代过程中不断提升清洗模型的清洗能力和数据质量,同时最小化人的参与度。具体地,此方法包含一个基于确定度的自动清洗模型,对数据是否需要修改的必要性进行度量,可有效减少错误的修复;此外,本文还定义了确定度增益,表示数据是保留、还是修改的分歧程度,将分歧最大的建议修改值交与人查看,以减小人的参与度。最终,本文在多个实验数据上验证了方法的有效性。 展开更多
关键词 数据清洗 主动学习 确定度 交互式迭代
下载PDF
基于主动学习的数据清洗系统 被引量:1
2
作者 郭开彦 王洪亚 程炜东 《软件工程》 2018年第9期37-40,共4页
ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修... ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。 展开更多
关键词 数据清洗 主动学习 确定度
下载PDF
面向脏数据的贝叶斯统计建模研究 被引量:1
3
作者 程炜东 王洪亚 郭开彦 《智能计算机与应用》 2019年第2期104-107,111,共5页
为了处理贝叶斯建模中的脏数据,通常会有2种解决方法。一种是对整个数据集进行清洗,但这种方法的代价很高,且对中型或大型的数据集可行性较低。另一种是使用点估计,这种点估计的方法虽然能有效减少清洗的代价,但是对训练出来贝叶斯模型... 为了处理贝叶斯建模中的脏数据,通常会有2种解决方法。一种是对整个数据集进行清洗,但这种方法的代价很高,且对中型或大型的数据集可行性较低。另一种是使用点估计,这种点估计的方法虽然能有效减少清洗的代价,但是对训练出来贝叶斯模型的可信程度没有保证。针对上述清洗方法中存在的问题,本文提出了一种基于区间的贝叶斯统计建模方法,简称区间贝叶斯建模。区间贝叶斯建模结合中心极限定理,使用区间估计的方法,保证了真实的后验概率会以一定的概率落在后验概率区间内。实验结果表明,区间贝叶斯建模通过清洗少量的样本,便能够训练出良好的贝叶斯模型,有效改善了清洗成本,并在精度和召回率上比不清洗任何数据的情况有显著的提升。 展开更多
关键词 贝叶斯分类器 数据清洗 概率区间 区间比较策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部