在时分双工(TDD)毫米波大规模多输入多输出(MIMO)系统中,因为波束空间信道具有稀疏性,导致将低维测量数据重建为原始高维信道时会带来较高的复杂度。针对上行链路,在不考虑稀疏度的情况下,将传统优化算法和基于数据驱动的深度学习方法...在时分双工(TDD)毫米波大规模多输入多输出(MIMO)系统中,因为波束空间信道具有稀疏性,导致将低维测量数据重建为原始高维信道时会带来较高的复杂度。针对上行链路,在不考虑稀疏度的情况下,将传统优化算法和基于数据驱动的深度学习方法相结合,提出一种改进的基于深度学习的波束空间信道估计算法。从重建过程入手,通过交替建立梯度下降模块(GDM)和近端映射模块(PMM)来构建网络。首先根据SalehValenzuela信道模型进行理论公式推导并生成信道数据;其次构建一个由传统迭代收缩阈值算法(ISTA)的更新步骤所展开的多层网络,并将数据传输到该网络,每层对应于一次类似ISTA的迭代;最后对训练好的模型进行在线测试,恢复出待估计的信道。构建Py Torch环境,将该算法与正交匹配追踪(OMP)算法、近似消息传递(AMP)算法、可学习的近似消息传递(LAMP)算法、高斯混合LAMP(GM-LAMP)算法进行对比,结果表明:在估计精度方面,所提算法相对表现较好的深度学习算法LAMP、GM-LAMP分别提升约3.07和2.61 d B,较传统算法OMP、AMP分别提升约11.12和9.57 d B;在参数量方面,所提算法较LAMP、GM-LAMP分别减少约39%和69%。展开更多
深度强化学习算法已成功应用于一系列具有挑战性的任务,然而这些方法通常会遇到奖励稀疏的时间信用分配、缺乏有效的探索以及探索经验不足等问题。演化算法是一类受自然进化启发的黑盒优化技术,算法提出了改进的混沌遗传算法以及量子遗...深度强化学习算法已成功应用于一系列具有挑战性的任务,然而这些方法通常会遇到奖励稀疏的时间信用分配、缺乏有效的探索以及探索经验不足等问题。演化算法是一类受自然进化启发的黑盒优化技术,算法提出了改进的混沌遗传算法以及量子遗传算法分别与强化学习算法结合,首先创建用于进化计算演员网络的总体,并使用梯度下降来更新网络参数,进化种群中的网络,直至算法收敛。算法的适应度度量整合强化学习中事件的回报,一定程度上解决了稀疏奖励条件下的时间信用分配问题;利用种群的方法来生成各种经验训练RL智能体,提高了鲁棒性。在离散和连续的强化学习环境中做了对比实验和消融实验,实验证明本文的算法能收敛到更高的奖励值,且能提高收敛速度。Deep reinforcement learning algorithms have been successfully applied to a range of challenging tasks;however, these methods often encounter problems such as sparse reward time credit allocation, lack of effective exploration, and insufficient exploration experience. Evolutionary algorithm is a type of black box optimization technique inspired by natural evolution. Improved chaotic genetic algorithm and quantum genetic algorithm are proposed to be combined with reinforcement learning algorithm. The algorithm first creates a population for evolutionary computation of actor networks and uses gradient descent to update network parameters, evolving the network in the population until the algorithm converges. The fitness measurement of the algorithm integrates the reward of events in reinforcement learning, which to some extent solves the problem of time credit allocation under sparse reward conditions;The use of population methods to generate various experience trained RL agents has improved robustness. Comparative experiments and ablation experiments were conducted in both discrete and continuous reinforcement learning environments, demonstrating that our algorithm can converge to higher reward values and improve convergence speed.展开更多
文摘大规模稀疏多目标优化问题(Sparse Multiobjective Optimization Problems,SMOPs)广泛存在于现实世界。为大规模SMOPs提出通用的解决方法,对于进化计算、控制论和机器学习等领域中的问题解决都具有推动作用。由于SMOPs具有高维决策空间和Pareto最优解稀疏的特性,现有的进化算法在解决SMOPs时,很容易陷入维数灾难的困境。针对这个问题,以稀疏分布的学习为切入点,提出了一种基于在线学习稀疏特征的大规模多目标进化算法(Large-scale Multiobjective Evolutio-nary Algorithm Based on Online Learning of Sparse Features,MOEA/OLSF)。具体地,首先设计了一种在线学习稀疏特征的方法来挖掘非零变量;然后提出了一种稀疏遗传算子,用于非零变量的进一步搜索和子代解的生成,在非零变量搜索过程中,其二进制交叉和变异算子也用于控制解的稀疏性和多样性。与最新的优秀算法在不同规模的测试问题上的对比结果表明,所提算法在收敛速度和性能方面均更优。
文摘在时分双工(TDD)毫米波大规模多输入多输出(MIMO)系统中,因为波束空间信道具有稀疏性,导致将低维测量数据重建为原始高维信道时会带来较高的复杂度。针对上行链路,在不考虑稀疏度的情况下,将传统优化算法和基于数据驱动的深度学习方法相结合,提出一种改进的基于深度学习的波束空间信道估计算法。从重建过程入手,通过交替建立梯度下降模块(GDM)和近端映射模块(PMM)来构建网络。首先根据SalehValenzuela信道模型进行理论公式推导并生成信道数据;其次构建一个由传统迭代收缩阈值算法(ISTA)的更新步骤所展开的多层网络,并将数据传输到该网络,每层对应于一次类似ISTA的迭代;最后对训练好的模型进行在线测试,恢复出待估计的信道。构建Py Torch环境,将该算法与正交匹配追踪(OMP)算法、近似消息传递(AMP)算法、可学习的近似消息传递(LAMP)算法、高斯混合LAMP(GM-LAMP)算法进行对比,结果表明:在估计精度方面,所提算法相对表现较好的深度学习算法LAMP、GM-LAMP分别提升约3.07和2.61 d B,较传统算法OMP、AMP分别提升约11.12和9.57 d B;在参数量方面,所提算法较LAMP、GM-LAMP分别减少约39%和69%。
文摘深度强化学习算法已成功应用于一系列具有挑战性的任务,然而这些方法通常会遇到奖励稀疏的时间信用分配、缺乏有效的探索以及探索经验不足等问题。演化算法是一类受自然进化启发的黑盒优化技术,算法提出了改进的混沌遗传算法以及量子遗传算法分别与强化学习算法结合,首先创建用于进化计算演员网络的总体,并使用梯度下降来更新网络参数,进化种群中的网络,直至算法收敛。算法的适应度度量整合强化学习中事件的回报,一定程度上解决了稀疏奖励条件下的时间信用分配问题;利用种群的方法来生成各种经验训练RL智能体,提高了鲁棒性。在离散和连续的强化学习环境中做了对比实验和消融实验,实验证明本文的算法能收敛到更高的奖励值,且能提高收敛速度。Deep reinforcement learning algorithms have been successfully applied to a range of challenging tasks;however, these methods often encounter problems such as sparse reward time credit allocation, lack of effective exploration, and insufficient exploration experience. Evolutionary algorithm is a type of black box optimization technique inspired by natural evolution. Improved chaotic genetic algorithm and quantum genetic algorithm are proposed to be combined with reinforcement learning algorithm. The algorithm first creates a population for evolutionary computation of actor networks and uses gradient descent to update network parameters, evolving the network in the population until the algorithm converges. The fitness measurement of the algorithm integrates the reward of events in reinforcement learning, which to some extent solves the problem of time credit allocation under sparse reward conditions;The use of population methods to generate various experience trained RL agents has improved robustness. Comparative experiments and ablation experiments were conducted in both discrete and continuous reinforcement learning environments, demonstrating that our algorithm can converge to higher reward values and improve convergence speed.
文摘在考虑工人技能学习差异的基础上,为解决多工人协作柔性车间调度问题,提出了基于稀疏邻域带精英策略的快速非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ)的调度方法。对考虑技能学习差异的多工人协作柔性车间调度问题进行了描述,以车间工人学习能力为背景改进了DeJong学习模型,并建立了多工人协作柔性车间调度的多目标优化模型。在NSGA-Ⅱ基础上,引入了邻域稀疏度的选择方法,有效保留了信息丰富和多样化的染色体,并将稀疏邻域NSGA-Ⅱ应用于柔性车间调度问题求解。经实验验证,稀疏邻域NSGA-Ⅱ所得Pareto解集质量高于标准NSGA-Ⅱ和自适应多目标进化算法(Multiobjective Evolutionary Algorithm Based on Decomposition,MOEA/D),最短调度方案的完工时间为127.1 min,该方案满足逻辑和时间等约束。实验结果验证了稀疏邻域NSGA-Ⅱ在柔性车间调度中的优越性。