SDC(Streamsets Data Collector)是一款可拖拽式的大数据ETL工具,可以不用写代码就能实现大量数据的处理,但要实现任务定时管理和多数据源等复杂功能则需要利用其公司的非开源产品。文章介绍利用SDC内部接口,设计开发定时组件以及结合...SDC(Streamsets Data Collector)是一款可拖拽式的大数据ETL工具,可以不用写代码就能实现大量数据的处理,但要实现任务定时管理和多数据源等复杂功能则需要利用其公司的非开源产品。文章介绍利用SDC内部接口,设计开发定时组件以及结合其自带组件,实现管道(PipeLine)的定时任务调度和多数据源应用。实验结果表明,拓展的框架组件可以实现伪实时及复杂的定时任务,并结合内部组件完成本机及远程多数据源整合应用,能解决用户对具体定时场景的应用问题。展开更多
文摘SDC(Streamsets Data Collector)是一款可拖拽式的大数据ETL工具,可以不用写代码就能实现大量数据的处理,但要实现任务定时管理和多数据源等复杂功能则需要利用其公司的非开源产品。文章介绍利用SDC内部接口,设计开发定时组件以及结合其自带组件,实现管道(PipeLine)的定时任务调度和多数据源应用。实验结果表明,拓展的框架组件可以实现伪实时及复杂的定时任务,并结合内部组件完成本机及远程多数据源整合应用,能解决用户对具体定时场景的应用问题。