摘要
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询.同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.
The current research work over data streams is mainly focused on dealing with the arrival of recent data in memory, neglecting the analysis and management of historical streaming data. An approach is proposed to store and query historical streaming data by using multi-layer recursive sampling method and HDS-Tree structure, which indexes the aggregation of historical streaming data and supports all kinds of aggregation queries over historical streaming data. The time-complexity and the error of aggregation algorithms are also analyzed based on HDS-Tree. The analytical and experimental results show that the approach can be effectively used to store and analyze the historical streaming data.
出处
《软件学报》
EI
CSCD
北大核心
2005年第12期2089-2098,共10页
Journal of Software
基金
国家自然科学基金
国家高技术研究发展计划(863)
国家重点基础研究发展规划(973)
黑龙江省自然科学基金~~