在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算...在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.展开更多
随着人工智能和增强现实技术在社会中的地位稳步上升,这些领域的核心关键技术在逐步实现突破,对于三维环境的动态实时的理解是当前增强现实技术研究方面最活跃的问题之一。为实现多人同时应用视觉同时定位与地图构建(simultaneous local...随着人工智能和增强现实技术在社会中的地位稳步上升,这些领域的核心关键技术在逐步实现突破,对于三维环境的动态实时的理解是当前增强现实技术研究方面最活跃的问题之一。为实现多人同时应用视觉同时定位与地图构建(simultaneous localization and mapping,SLAM)系统,将图优化框架的SLAM与多智能体进行结合研究,提出基于多智能体的SLAM构建方法。首先简要介绍了视觉SLAM框架,系统地分析了在构建三维场景时,利用相机将信息进行整合和预处理,并估算相邻图像之间的运动以及检测信息来构建整体的框架。从视觉中提炼出最优化的3D模型以及各种参数来达到三维重建,通过相机的运动过程来确定视觉的深度特性以及加强沉浸式的观感体验,最终根据其本身的可视化追踪和环境理解,将非线性优化方案结合多智能体进行SLAM构建,实现移动平台真实浏览虚拟样板间的可视化与交互。展开更多
文摘在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.
文摘随着人工智能和增强现实技术在社会中的地位稳步上升,这些领域的核心关键技术在逐步实现突破,对于三维环境的动态实时的理解是当前增强现实技术研究方面最活跃的问题之一。为实现多人同时应用视觉同时定位与地图构建(simultaneous localization and mapping,SLAM)系统,将图优化框架的SLAM与多智能体进行结合研究,提出基于多智能体的SLAM构建方法。首先简要介绍了视觉SLAM框架,系统地分析了在构建三维场景时,利用相机将信息进行整合和预处理,并估算相邻图像之间的运动以及检测信息来构建整体的框架。从视觉中提炼出最优化的3D模型以及各种参数来达到三维重建,通过相机的运动过程来确定视觉的深度特性以及加强沉浸式的观感体验,最终根据其本身的可视化追踪和环境理解,将非线性优化方案结合多智能体进行SLAM构建,实现移动平台真实浏览虚拟样板间的可视化与交互。