摘要
针对在数据预处理中数据清洗的重复数据问题,通过使用Kettle工具中的转换脚本达到去重的目的。在换脚本中使用“唯一行”组件或者“去除重复记录”组件能够方便高效地实现完全重复数据的多字段去重操作;对于不完全重复数据,需要结合源数据集字段的特点先基于某一合适的字段使用“模糊匹配”组件区分出无重复数据和疑似重复数据,然后通过基于有唯一性的字段使用“过滤记录”组件对疑似重复数据进行最终的去重操作。Kettle工具中的转换脚本对于数据的去重操作有着很好的效率和简单的操作方法。
作者
唐紫珺
蒋亮
TANG Zijun;JIANG Liang
出处
《信息技术与信息化》
2021年第8期128-130,共3页
Information Technology and Informatization