数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamica...数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamical Synthesis of Multiple Methods,DSMM),能够动态地改善传统分类方法的低准确率点,以负载平衡为前提将分类工作分布于网格中的各个结点上.另外,DSMM提供的生命周期管理保障了其作为一个网格应用的鲁棒性和灵活性,适合于网格的松耦合体系结构.实验采用了2927个乳腺癌患者病例,结果显示DSMM系统的确能够在数据网格环境中发挥其灵活性、高效性并提高分类的准确率.展开更多
大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬...大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%~2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。展开更多
SSD(solid state drive)的写入寿命比较有限,因此除命中率外,SSD缓存设备的写入量成为评价缓存替换算法的另一个关键指标。如何使算法提高写入数据转化为缓存命中的效率,从而延长SSD的使用寿命,具有重要的研究意义。目前,已有缓存替换...SSD(solid state drive)的写入寿命比较有限,因此除命中率外,SSD缓存设备的写入量成为评价缓存替换算法的另一个关键指标。如何使算法提高写入数据转化为缓存命中的效率,从而延长SSD的使用寿命,具有重要的研究意义。目前,已有缓存替换算法的设计一般基于时间局部性,即刚被访问的数据短期内被访问的概率较高,因此需要频繁的数据更新和较高写入量来保证较高命中率;或是通过不低的开销屏蔽相对最差的部分数据来减少一定的写入量,还缺少用低开销获得数据长期热度规律,有效提高缓存数据质量的算法。提出了访问序列折叠的缓存替换算法,用比较低的开销定位拥有长期稳定热度的数据写入缓存,明显提高了SSD缓存数据质量,在保证命中率的同时减少了SSD的写入量。实验表明,访问序列折叠算法相比LRU(least recently used)算法可在命中率损失低于10%的情况下减少90%的写入量,与SieveStore、L2ARC(level2 adjustable replacement cache)等写入优化缓存算法相比,命中率相当时可将写入量减少50%以上,有效达到了通过缓存高质量数据,减少SSD的写入量,延长其使用寿命的目的。展开更多
为了节约能源并保障服务质量(quality of service,QoS),提出了一种保障服务质量的节能流媒体存储系统的设计。通过动态的磁盘分组和实时的数据交换,将所有磁盘划分为重负载的性能磁盘组和轻负载的节能磁盘组。提出视频数据分块算法,并...为了节约能源并保障服务质量(quality of service,QoS),提出了一种保障服务质量的节能流媒体存储系统的设计。通过动态的磁盘分组和实时的数据交换,将所有磁盘划分为重负载的性能磁盘组和轻负载的节能磁盘组。提出视频数据分块算法,并用以提高系统的节能效果和服务质量。实验数据表明:该系统适应流媒体应用的特点,在保障服务质量的前提下,节能效果是FT算法的16.34倍、PDC算法的4.47倍。展开更多
The future storage systems are expected to contain a wide variety of storage media and layers due to the rapid development of NVM(non-volatile memory)techniques.For NVM-based read caches,many kinds of NVM devices cann...The future storage systems are expected to contain a wide variety of storage media and layers due to the rapid development of NVM(non-volatile memory)techniques.For NVM-based read caches,many kinds of NVM devices cannot stand frequent data updates due to limited write endurance or high energy consumption of writing.However,traditional cache algorithms have to update cached blocks frequently because it is difficult for them to predict long-term popularity according to such limited information about data blocks,such as only a single value or a queue that reflects frequency or recency.In this paper,we propose a new MacroTrend(macroscopic trend)prediction method to discover long-term hot blocks through blocks'macro trends illustrated by their access count histograms.And then a new cache replacement algorithm is designed based on the MacroTrend prediction to greatly reduce the write amount while improving the hit ratio.We conduct extensive experiments driven by a series of real-world traces and find that compared with LRU,MacroTrend can reduce the write amounts of NVM cache devices significantly with similar hit ratios,leading to longer NVM lifetime or less energy consumption.展开更多
文摘数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamical Synthesis of Multiple Methods,DSMM),能够动态地改善传统分类方法的低准确率点,以负载平衡为前提将分类工作分布于网格中的各个结点上.另外,DSMM提供的生命周期管理保障了其作为一个网格应用的鲁棒性和灵活性,适合于网格的松耦合体系结构.实验采用了2927个乳腺癌患者病例,结果显示DSMM系统的确能够在数据网格环境中发挥其灵活性、高效性并提高分类的准确率.
文摘大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%~2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。
文摘为了节约能源并保障服务质量(quality of service,QoS),提出了一种保障服务质量的节能流媒体存储系统的设计。通过动态的磁盘分组和实时的数据交换,将所有磁盘划分为重负载的性能磁盘组和轻负载的节能磁盘组。提出视频数据分块算法,并用以提高系统的节能效果和服务质量。实验数据表明:该系统适应流媒体应用的特点,在保障服务质量的前提下,节能效果是FT算法的16.34倍、PDC算法的4.47倍。
基金supported by the National Key Research and Development Program of China under Grant No.2019YFE0198600the National Natural Science Foundation of China under Grant Nos.61972402,61972275,and 61732014.
文摘The future storage systems are expected to contain a wide variety of storage media and layers due to the rapid development of NVM(non-volatile memory)techniques.For NVM-based read caches,many kinds of NVM devices cannot stand frequent data updates due to limited write endurance or high energy consumption of writing.However,traditional cache algorithms have to update cached blocks frequently because it is difficult for them to predict long-term popularity according to such limited information about data blocks,such as only a single value or a queue that reflects frequency or recency.In this paper,we propose a new MacroTrend(macroscopic trend)prediction method to discover long-term hot blocks through blocks'macro trends illustrated by their access count histograms.And then a new cache replacement algorithm is designed based on the MacroTrend prediction to greatly reduce the write amount while improving the hit ratio.We conduct extensive experiments driven by a series of real-world traces and find that compared with LRU,MacroTrend can reduce the write amounts of NVM cache devices significantly with similar hit ratios,leading to longer NVM lifetime or less energy consumption.