-
题名基于动态优先级的奖励优化模型
被引量:2
- 1
-
-
作者
赵沛尧
黄蔚
-
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
苏州大学东吴学院
-
出处
《郑州大学学报(理学版)》
北大核心
2022年第1期62-68,共7页
-
基金
国家自然科学基金项目(61303108)
江苏省高校自然科学研究重大项目(17KJA520004)
+1 种基金
江苏省高校省级重点实验室(苏州大学)项目(KJS1524)
苏州市应用基础研究计划工业部分(SYG201422)。
-
文摘
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境。为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数。然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数。模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束。在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束。
-
关键词
强化学习
深度学习
受限马尔可夫模型
动态优先级
机器人环境
-
Keywords
reinforcement learning
deep learning
constrained Markov decision process
dynamic preference
robotic environment
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名入华粟特人墓葬浮雕中葡萄元素初探
- 2
-
-
作者
赵沛尧
-
机构
新疆师范大学历史学与社会学学院
-
出处
《内蒙古电大学刊》
2021年第1期38-41,共4页
-
文摘
在入华粟特人的墓葬浮雕中,葡萄元素作为其中的重要组成部分多次出现,凸显了其在粟特人生活中的重要地位。以葡萄元素这一微观视角为切入点,通过浮雕上的图案和文献资料,从三个方面对墓葬浮雕上的葡萄元素与入华粟特人的关系进行考察,探究葡萄元素在入华粟特人生活中的文化内涵。
-
关键词
入华粟特人
葡萄元素
墓葬图像
-
分类号
K874
[历史地理—考古学及博物馆学]
-