期刊文献+

基于Kettle的数据预处理应用 被引量:9

下载PDF
导出
摘要 针对在数据预处理中数据清洗的重复数据问题,通过使用Kettle工具中的转换脚本达到去重的目的。在换脚本中使用“唯一行”组件或者“去除重复记录”组件能够方便高效地实现完全重复数据的多字段去重操作;对于不完全重复数据,需要结合源数据集字段的特点先基于某一合适的字段使用“模糊匹配”组件区分出无重复数据和疑似重复数据,然后通过基于有唯一性的字段使用“过滤记录”组件对疑似重复数据进行最终的去重操作。Kettle工具中的转换脚本对于数据的去重操作有着很好的效率和简单的操作方法。
作者 唐紫珺 蒋亮 TANG Zijun;JIANG Liang
出处 《信息技术与信息化》 2021年第8期128-130,共3页 Information Technology and Informatization
  • 相关文献

参考文献1

二级参考文献8

共引文献18

同被引文献61

引证文献9

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部