该文提出了一种基于深度强化学习的优势竞争网络(advantage dueling double deep Q-network,AD3QN)算法作为500m口径球面射电望远镜(five-hundred-meter aperture spherical radio telescope,FAST)促动器自动化维护车间转运机器人的路...该文提出了一种基于深度强化学习的优势竞争网络(advantage dueling double deep Q-network,AD3QN)算法作为500m口径球面射电望远镜(five-hundred-meter aperture spherical radio telescope,FAST)促动器自动化维护车间转运机器人的路径规划方法。通过预先学习竞争网络中的状态价值层,使状态价值参数根据环境状态进行初始化,减少了首次接触目标点所需要的步数;通过改进竞争网络中的贪婪搜索算法,使环境探索与利用的转变更为合理;通过改进动作选择策略,使机器人路径规划不易陷入局部极小值,进一步加快了算法收敛的速度。AD3QN算法具有动态规划能力强、实时性好、柔性高、鲁棒性强和准确率高等优点。对促动器自动化维护车间进行建模并测试网络改进前后的路径规划能力,仿真结果表明:采用AD3QN算法在首次找到目标点用时方面比一般竞争网络快176%。该研究有望提高FAST促动器的维护效率,进而减少对FAST观测时间的挤占。展开更多
文摘该文提出了一种基于深度强化学习的优势竞争网络(advantage dueling double deep Q-network,AD3QN)算法作为500m口径球面射电望远镜(five-hundred-meter aperture spherical radio telescope,FAST)促动器自动化维护车间转运机器人的路径规划方法。通过预先学习竞争网络中的状态价值层,使状态价值参数根据环境状态进行初始化,减少了首次接触目标点所需要的步数;通过改进竞争网络中的贪婪搜索算法,使环境探索与利用的转变更为合理;通过改进动作选择策略,使机器人路径规划不易陷入局部极小值,进一步加快了算法收敛的速度。AD3QN算法具有动态规划能力强、实时性好、柔性高、鲁棒性强和准确率高等优点。对促动器自动化维护车间进行建模并测试网络改进前后的路径规划能力,仿真结果表明:采用AD3QN算法在首次找到目标点用时方面比一般竞争网络快176%。该研究有望提高FAST促动器的维护效率,进而减少对FAST观测时间的挤占。