-
题名多模态医疗数据中海量小文件存储优化方法
被引量:6
- 1
-
-
作者
曾梦
邹北骥
张文生
杨雪冰
朱承璋
-
机构
中南大学计算机学院
中国科学院自动化研究所
中南大学文学与新闻传播学院
湖南省机器视觉与智慧医疗工程技术研究中心(中南大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第3期1451-1469,共19页
-
基金
科技创新2030——“新一代人工智能”重大项目(2018AAA0102100)
湖南省科技计划项目(2017WK2074)
湖南省高新技术产业科技创新引领计划(2020GK2021)。
-
文摘
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及HPF小文件合并方法相比,文件读取时间更短,能够提高HDFS在处理多模态医疗数据中海量小文件时的整体性能.
-
关键词
多模态医疗数据
HDFS
HBASE
小文件
存储性能优化
-
Keywords
multi-modal medical data
HDFS
HBase
small files
storage performance optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-