随着地震数据规模的不断增大,在进行数据并行处理时,并行计算通信框架因使用TCP(Transmission Control Protocol)协议存在网络吞吐量低、高时延等性能问题,以及主从并行模式下存在主节点网卡性能瓶颈问题,制约了数据并行处理效率的线性...随着地震数据规模的不断增大,在进行数据并行处理时,并行计算通信框架因使用TCP(Transmission Control Protocol)协议存在网络吞吐量低、高时延等性能问题,以及主从并行模式下存在主节点网卡性能瓶颈问题,制约了数据并行处理效率的线性提升,集群节点规模扩展性下降明显。为此,提出采用RoCE(RDMA over Converged Ethernet)协议替换TCP协议、主节点配置高性能100 GE网卡的高效并行计算通信优化方案,解决了并行计算框架存在的数据网络传输性能问题及主节点同时收集多个计算节点计算结果数据的网络性能瓶颈问题,实现了高速可扩展技术的大规模地震数据处理通信应用方案,计算节点可快速完成数据通信,提升了大规模地震数据处理计算效率;另外采用UCX(Unified Communication X)技术还提升了应用系统的可移植性与使用的便捷性。逆时偏移处理数据的测试结果表明,对于本次大规模数据的处理,逆时偏移并行计算效率提升了32.8%,效果显著,可缩短大规模地震数据逆时偏移计算的时间,并减少计算能源消耗,因此具有很高的实用价值和经济效益。展开更多
序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的"组合爆炸"问题,...序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的"组合爆炸"问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多"碎片"空间,并保证不同"碎片"间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.展开更多
文摘随着地震数据规模的不断增大,在进行数据并行处理时,并行计算通信框架因使用TCP(Transmission Control Protocol)协议存在网络吞吐量低、高时延等性能问题,以及主从并行模式下存在主节点网卡性能瓶颈问题,制约了数据并行处理效率的线性提升,集群节点规模扩展性下降明显。为此,提出采用RoCE(RDMA over Converged Ethernet)协议替换TCP协议、主节点配置高性能100 GE网卡的高效并行计算通信优化方案,解决了并行计算框架存在的数据网络传输性能问题及主节点同时收集多个计算节点计算结果数据的网络性能瓶颈问题,实现了高速可扩展技术的大规模地震数据处理通信应用方案,计算节点可快速完成数据通信,提升了大规模地震数据处理计算效率;另外采用UCX(Unified Communication X)技术还提升了应用系统的可移植性与使用的便捷性。逆时偏移处理数据的测试结果表明,对于本次大规模数据的处理,逆时偏移并行计算效率提升了32.8%,效果显著,可缩短大规模地震数据逆时偏移计算的时间,并减少计算能源消耗,因此具有很高的实用价值和经济效益。
文摘序列是一种重要的数据类型,在诸多应用领域广泛存在.基于序列的特征选择具有广阔的现实应用场景.交互特征是指一组整体具有显著强于单独个体与目标相关性的特征集合.从大规模序列中挖掘交互特征面临着位点的"组合爆炸"问题,计算挑战性极大.针对该问题,以生物领域高通量测序数据为背景,提出了一种新的基于并行处理和演化计算的高阶交互特征挖掘算法.位点数是制约交互作用挖掘效率的根本因素.摈弃了现有方法基于序列分块的并行策略,采用基于位点分块的并行思想,具有天然的效率优势.进一步,提出了极大等位公共子序列(maximal allelic common subsequence, MACS)的概念并设计了基于MACS的特征区域划分策略.该策略能将交互特征的查找范围缩小至许多"碎片"空间,并保证不同"碎片"间不存在交互特征,避免计算耦合引起的高额通信代价.利用基于置换搜索的并行蚁群算法,执行交互特征选择.大量真实数据集和合成数据集上的实验结果,证实提出的PACOIFS算法在有效性和效率上优于同类其他算法.