数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamica...数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamical Synthesis of Multiple Methods,DSMM),能够动态地改善传统分类方法的低准确率点,以负载平衡为前提将分类工作分布于网格中的各个结点上.另外,DSMM提供的生命周期管理保障了其作为一个网格应用的鲁棒性和灵活性,适合于网格的松耦合体系结构.实验采用了2927个乳腺癌患者病例,结果显示DSMM系统的确能够在数据网格环境中发挥其灵活性、高效性并提高分类的准确率.展开更多
大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬...大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%~2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。展开更多
SSD(solid state drive)的写入寿命比较有限,因此除命中率外,SSD缓存设备的写入量成为评价缓存替换算法的另一个关键指标。如何使算法提高写入数据转化为缓存命中的效率,从而延长SSD的使用寿命,具有重要的研究意义。目前,已有缓存替换...SSD(solid state drive)的写入寿命比较有限,因此除命中率外,SSD缓存设备的写入量成为评价缓存替换算法的另一个关键指标。如何使算法提高写入数据转化为缓存命中的效率,从而延长SSD的使用寿命,具有重要的研究意义。目前,已有缓存替换算法的设计一般基于时间局部性,即刚被访问的数据短期内被访问的概率较高,因此需要频繁的数据更新和较高写入量来保证较高命中率;或是通过不低的开销屏蔽相对最差的部分数据来减少一定的写入量,还缺少用低开销获得数据长期热度规律,有效提高缓存数据质量的算法。提出了访问序列折叠的缓存替换算法,用比较低的开销定位拥有长期稳定热度的数据写入缓存,明显提高了SSD缓存数据质量,在保证命中率的同时减少了SSD的写入量。实验表明,访问序列折叠算法相比LRU(least recently used)算法可在命中率损失低于10%的情况下减少90%的写入量,与SieveStore、L2ARC(level2 adjustable replacement cache)等写入优化缓存算法相比,命中率相当时可将写入量减少50%以上,有效达到了通过缓存高质量数据,减少SSD的写入量,延长其使用寿命的目的。展开更多
文摘数据网格作为面向服务的架构,为远程用户提供分布式数据查询、存储和管理等服务,而数据网格中的数据分类日益成为研究者们所关注的问题.本文描述了用于数据网格的一种高效的分类系统.该系统动态综合作为网格服务的多种分类方法(Dynamical Synthesis of Multiple Methods,DSMM),能够动态地改善传统分类方法的低准确率点,以负载平衡为前提将分类工作分布于网格中的各个结点上.另外,DSMM提供的生命周期管理保障了其作为一个网格应用的鲁棒性和灵活性,适合于网格的松耦合体系结构.实验采用了2927个乳腺癌患者病例,结果显示DSMM系统的确能够在数据网格环境中发挥其灵活性、高效性并提高分类的准确率.
文摘大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%~2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。