排序算法是计算机科学领域的一个基础算法,是大量应用的算法核心。在大数据时代,随着数据量的极速增长,并行排序算法受到广泛关注。现有的并行排序算法普遍存在通信开销过大、负载不均衡等问题,导致算法难以大规模扩展。针对以上问题,...排序算法是计算机科学领域的一个基础算法,是大量应用的算法核心。在大数据时代,随着数据量的极速增长,并行排序算法受到广泛关注。现有的并行排序算法普遍存在通信开销过大、负载不均衡等问题,导致算法难以大规模扩展。针对以上问题,提出一种大规模可扩展的正则采样并行排序(scalable parallel sorting by regular sampling,ScaPSRS)算法,摒弃传统正则采样并行排序(parallel sorting by regular sampling,PSRS)算法中由一个进程负责采样的做法,转而让所有进程参与正则采样,选出p-1个分隔元素,将整个数据集划分成p个不相交的子集,然后实施并行排序,避免了单一进程的采样瓶颈。此外,ScaPSRS采用一种新的迭代更新策略选择p-1个分隔元素,保证划分的p个子集尽可能大小相同,从而确保p个进程对各自的子集进行本地排序时的负载均衡。在天河二号超级计算机上进行的大量实验表明,ScaPSRS算法能够成功地扩展到32000个内核,性能比PSRS算法和Hofmann等人提出的分区算法分别提升了3.7倍和11.7倍。展开更多
流量数据丢失是网络系统中常见的问题,通常由传感器故障、传输错误和存储丢失引起.现有的数据修复方法无法学习流量数据的多维特征,因此本文提出了一种结合双向长短期记忆网络与多尺度卷积网络的双通道并行架构(ST-MFCN)用于填补流量数...流量数据丢失是网络系统中常见的问题,通常由传感器故障、传输错误和存储丢失引起.现有的数据修复方法无法学习流量数据的多维特征,因此本文提出了一种结合双向长短期记忆网络与多尺度卷积网络的双通道并行架构(ST-MFCN)用于填补流量数据的缺失值,同时设计了一种新的对抗性损失函数进一步提高预测精度,该模型有效地学习流量数据的时间特征和动态空间特征.本文在Web traffic time series数据集上对模型进行测试,并与现有的修复方法进行对比,实验结果表明,ST-MFCN能够减少数据恢复的误差,提升了数据修复的精确度,为网络系统中的流量数据修复提供了一种稳健高效的解决方案.展开更多
文摘数据驱动的多元化发展导致数据异构性增强、维度提升和特征量规模扩大,给贸易经济分析带来更大挑战。为了提高贸易经济分析的科学性,采用非平行超平面支持向量机算法(support vector machine,SVM)对贸易经济进行预测分析。首先,根据贸易经济影响因素进行主成分分析,获取影响贸易经济的关键特征,并对特征进行量化和去噪处理。然后,采用广义特征值最接近支持向量机(proximal support vector machine via generalized eigenvalues,GEPSVM)进行贸易经济预测分类。根据预测指标要求,选择核函数GEPSVM算法(KGEPSVM算法)对分类的非平行超平面求解,通过类别划分函数获得经济预测结果。实证分析表明,对比常用的非平行超平面支持向量机算法,所提算法的贸易经济预测性能更优,而且在常用贸易经济指标的预测中,表现出较高预测精度和稳定性。
文摘排序算法是计算机科学领域的一个基础算法,是大量应用的算法核心。在大数据时代,随着数据量的极速增长,并行排序算法受到广泛关注。现有的并行排序算法普遍存在通信开销过大、负载不均衡等问题,导致算法难以大规模扩展。针对以上问题,提出一种大规模可扩展的正则采样并行排序(scalable parallel sorting by regular sampling,ScaPSRS)算法,摒弃传统正则采样并行排序(parallel sorting by regular sampling,PSRS)算法中由一个进程负责采样的做法,转而让所有进程参与正则采样,选出p-1个分隔元素,将整个数据集划分成p个不相交的子集,然后实施并行排序,避免了单一进程的采样瓶颈。此外,ScaPSRS采用一种新的迭代更新策略选择p-1个分隔元素,保证划分的p个子集尽可能大小相同,从而确保p个进程对各自的子集进行本地排序时的负载均衡。在天河二号超级计算机上进行的大量实验表明,ScaPSRS算法能够成功地扩展到32000个内核,性能比PSRS算法和Hofmann等人提出的分区算法分别提升了3.7倍和11.7倍。
文摘流量数据丢失是网络系统中常见的问题,通常由传感器故障、传输错误和存储丢失引起.现有的数据修复方法无法学习流量数据的多维特征,因此本文提出了一种结合双向长短期记忆网络与多尺度卷积网络的双通道并行架构(ST-MFCN)用于填补流量数据的缺失值,同时设计了一种新的对抗性损失函数进一步提高预测精度,该模型有效地学习流量数据的时间特征和动态空间特征.本文在Web traffic time series数据集上对模型进行测试,并与现有的修复方法进行对比,实验结果表明,ST-MFCN能够减少数据恢复的误差,提升了数据修复的精确度,为网络系统中的流量数据修复提供了一种稳健高效的解决方案.