针对电力信息通信产生的各类多源异构数据的清洗问题,文章基于多源异构数据湖平台(multi-source heterogeneous data lake platform,MHDP),提出一种具有交互性的基于否定约束规则(denial constraints,DCs)的清洗方案。首先,对结构化清...针对电力信息通信产生的各类多源异构数据的清洗问题,文章基于多源异构数据湖平台(multi-source heterogeneous data lake platform,MHDP),提出一种具有交互性的基于否定约束规则(denial constraints,DCs)的清洗方案。首先,对结构化清洗引擎HoloClean进行了改进,使其在小型数据集上取得更好的效果,经过测试,改进后使得基准电力通信数据集的准确度显著提高,并提出了通用的解析多源异构数据方案。其次,实现了一个实时反馈的交互式系统,此系统解析并可视化数据的元数据信息,给用户提供图形界面建立约束规则来参与清洗工作。最后,清洗数据保存为原始数据格式。实验结果证明,提出的解决方案可以有效清洗多源异构数据,同时具有较高的准确性和易用性。展开更多
文摘针对电力信息通信产生的各类多源异构数据的清洗问题,文章基于多源异构数据湖平台(multi-source heterogeneous data lake platform,MHDP),提出一种具有交互性的基于否定约束规则(denial constraints,DCs)的清洗方案。首先,对结构化清洗引擎HoloClean进行了改进,使其在小型数据集上取得更好的效果,经过测试,改进后使得基准电力通信数据集的准确度显著提高,并提出了通用的解析多源异构数据方案。其次,实现了一个实时反馈的交互式系统,此系统解析并可视化数据的元数据信息,给用户提供图形界面建立约束规则来参与清洗工作。最后,清洗数据保存为原始数据格式。实验结果证明,提出的解决方案可以有效清洗多源异构数据,同时具有较高的准确性和易用性。