天文观测数据是天文研究的基础,但传统的集中式数据检索方法已难以满足日益增长的海量天文数据的高性能检索和查询需求.提出了一种基于Elastic Search分布式搜索引擎,通过River机制对现有的海量FITS(Flexible Image Transport System)...天文观测数据是天文研究的基础,但传统的集中式数据检索方法已难以满足日益增长的海量天文数据的高性能检索和查询需求.提出了一种基于Elastic Search分布式搜索引擎,通过River机制对现有的海量FITS(Flexible Image Transport System)数据进行索引构建,从而实现海量FITS数据高效检索的方法,并讨论了其中的近实时检索和查询的关键技术.实测结果表明,在百万到千万级的天文数据量下,该方法可获得极高的检索性能,并能够很方便地集成到现有的天文数据归档系统中,完全可以满足当前国内各类望远镜系统天文数据的归档要求.展开更多
平方千米阵列(Square Kilometre Array,SKA)科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark是一个非常成熟的商业框架,在互联网中被广泛应...平方千米阵列(Square Kilometre Array,SKA)科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark是一个非常成熟的商业框架,在互联网中被广泛应用,根据平方千米阵列项目进展的要求,重点研究了如何将算法参考库(Algorithm Reference Library,ARL)中的部分管线移植到Spark上执行。对部分实现过程进行了分析讨论,给出了相应的任务流程。最终结果表明,移植后代码生成结果符合预期,Spark能够满足部分分布式数据的要求,但迫切需要解决自身存在的一系列问题。展开更多
文摘天文观测数据是天文研究的基础,但传统的集中式数据检索方法已难以满足日益增长的海量天文数据的高性能检索和查询需求.提出了一种基于Elastic Search分布式搜索引擎,通过River机制对现有的海量FITS(Flexible Image Transport System)数据进行索引构建,从而实现海量FITS数据高效检索的方法,并讨论了其中的近实时检索和查询的关键技术.实测结果表明,在百万到千万级的天文数据量下,该方法可获得极高的检索性能,并能够很方便地集成到现有的天文数据归档系统中,完全可以满足当前国内各类望远镜系统天文数据的归档要求.
文摘平方千米阵列(Square Kilometre Array,SKA)科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark是一个非常成熟的商业框架,在互联网中被广泛应用,根据平方千米阵列项目进展的要求,重点研究了如何将算法参考库(Algorithm Reference Library,ARL)中的部分管线移植到Spark上执行。对部分实现过程进行了分析讨论,给出了相应的任务流程。最终结果表明,移植后代码生成结果符合预期,Spark能够满足部分分布式数据的要求,但迫切需要解决自身存在的一系列问题。