针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分...针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分误差平方为依据来更新记忆池,使记忆池中一直保留对学习效果提升更重要的情景记忆样本,并将情景记忆算法与神经网络相结合,提高了算法的收敛速度。为了将EMVD算法应用于机器人协作运输任务中,设定机器人和运输目标的位置为状态,并且设计了回报函数。仿真结果表明,EMVD算法可以探索出机器人协作运输任务的最优策略,提高了算法的收敛速度。展开更多
对多机器人协作运输时环境地形起伏不平,运输过程中机器人和物体发生滑动的问题,提出了起伏地形环境中的协作运输策略.将观测者-推动者模式的多机器人协作推箱子任务转换为多机器人编队任务,通过基于几何规划的虚拟目标序列跟踪方法实...对多机器人协作运输时环境地形起伏不平,运输过程中机器人和物体发生滑动的问题,提出了起伏地形环境中的协作运输策略.将观测者-推动者模式的多机器人协作推箱子任务转换为多机器人编队任务,通过基于几何规划的虚拟目标序列跟踪方法实现被推动物体脱离运动方向时运输编队的重新形成.协作运输策略中的观测者机器人采用平缓地形优先(navigate plain first to destination,NPFD)导航策略指导编队运动.展开更多
文摘针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分误差平方为依据来更新记忆池,使记忆池中一直保留对学习效果提升更重要的情景记忆样本,并将情景记忆算法与神经网络相结合,提高了算法的收敛速度。为了将EMVD算法应用于机器人协作运输任务中,设定机器人和运输目标的位置为状态,并且设计了回报函数。仿真结果表明,EMVD算法可以探索出机器人协作运输任务的最优策略,提高了算法的收敛速度。
文摘对多机器人协作运输时环境地形起伏不平,运输过程中机器人和物体发生滑动的问题,提出了起伏地形环境中的协作运输策略.将观测者-推动者模式的多机器人协作推箱子任务转换为多机器人编队任务,通过基于几何规划的虚拟目标序列跟踪方法实现被推动物体脱离运动方向时运输编队的重新形成.协作运输策略中的观测者机器人采用平缓地形优先(navigate plain first to destination,NPFD)导航策略指导编队运动.