摘要
计算机大数据的处理及管理技术的进步为地球物理方法中复杂海量数据的处理带来了机遇。然而,多种地球物理方法中庞大的实测数据有着不同性质和特征,对物探从业人员有效管理和分析大数据提出了巨大挑战。尤其是近年来发展迅速的航空电磁物探方法,其庞大的电磁数据内容和分析算法的复杂性增加了在高性能计算系统上实现算法的难度。为解决此问题,提出了一种分布式计算框架EMSpark,用于处理复杂大数据分析和耗时的计算任务。分块数据结构提高了并行I/O效率,同时为块构建了一个时空索引,以避免不必要的数据读取和预处理。开发了一个集成的、多维的数据模型(electromagnetic response distributed dataset,EMRDD)和数据仓库技术(extract-transform-load,ETL)操作来高效的连接数据归档和数据提取。实验结果表明,EMSpark计算框架具有较高的效率和数据局部性,进行不同的时空数据查询和分析。这为地球物理勘探中电磁大数据的分析与应用提供了较好的平台,大大减少了物探人员后期数据归档及处理的时间,提高了工作效率。
作者
王仕兴
尹小康
何可
赵思为
郭明
WANG Shixing;YIN Xiaokang;HE Ke;ZHAO Siwei;GUO Ming
出处
《信息技术与信息化》
2022年第12期145-150,共6页
Information Technology and Informatization
基金
中国中铁股份有限公司科技研究开发计划(CZ01-重点-05)。