期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种基于一致性的多智能体Q学习算法
1
作者 崔浩岩 张震 +1 位作者 赵德京 廖登宇 《控制工程》 CSCD 北大核心 2024年第7期1169-1177,共9页
针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,M... 针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,MAQC算法采用值分解方法缓解联合动作空间维数灾难问题。此外,每个智能体将自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。结果表明,MAQC算法能够收敛到最优联合策略。 展开更多
关键词 多智能体强化学习 智能体通信 一致性 Q学习 值分解
下载PDF
一种基于动作采样的Q学习算法 被引量:1
2
作者 赵德京 马洪聪 +1 位作者 廖登宇 崔浩岩 《控制工程》 CSCD 北大核心 2024年第1期70-79,共10页
强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampli... 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。 展开更多
关键词 多智能体强化学习 强化学习 Q学习 动作采样
下载PDF
基于三生空间的连云港市土地利用效益评价
3
作者 冯绍国 崔浩岩 《江苏科技信息》 2024年第11期118-124,共7页
土地利用效益评价是土地管理决策的重要组成部分,对于推进土地资源合理利用、实现区域的可持续发展具有重要的意义。文章基于三生空间视角,以连云港市为案例研究区,从生产、生活、生态3个维度构建土地利用效益评价指标体系;在此基础上采... 土地利用效益评价是土地管理决策的重要组成部分,对于推进土地资源合理利用、实现区域的可持续发展具有重要的意义。文章基于三生空间视角,以连云港市为案例研究区,从生产、生活、生态3个维度构建土地利用效益评价指标体系;在此基础上采用TOPSIS法对连云港市2011—2020年的土地利用效益进行综合评价。结果表明:(1)从整体上来看,连云港市2011—2020年土地利用综合效益增长较为明显,处于波动上升状态,呈现向好发展的趋势。(2)从三生空间的三重功能来看,土地生产效益增长较为缓慢,且在2017年、2018年出现大幅下跌;土地生活效益在2011—2020年间持续增长,在2012年出现增长高峰,增长率超过400%;土地生态效益增长明显,呈现先升后降又升的态势。总体上连云港市土地利用效益存在生产投入产出较低、各空间土地利用效益差异较大等问题。(3)2011—2020年连云港市三生空间土地利用效益的耦合协调度整体水平较低,发展较为缓慢。应当从政策扶持、土地整理、合理布局、加强规划以及优化土地利用结构等方面着手改善。 展开更多
关键词 三生空间 土地利用效益 TOPSIS模型
下载PDF
基于多智能体深度强化学习的机器人协作搬运方法
4
作者 廖登宇 张震 +1 位作者 赵德京 崔浩岩 《电子设计工程》 2023年第23期7-11,共5页
近年来,机器人协作搬运任务在生产线和无人仓库场景中得到广泛应用。针对在传统路径规划方法上机器人无法达到最高的搬运效率的问题,提出一种通过基于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的QTRAN Plu... 近年来,机器人协作搬运任务在生产线和无人仓库场景中得到广泛应用。针对在传统路径规划方法上机器人无法达到最高的搬运效率的问题,提出一种通过基于多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的QTRAN Plus算法参与协作搬运的机器人规划路径。QTRAN Plus算法采用混合网络代替QTRAN算法中对每个智能体的Q值网络进行加和的操作,以提高优化能力,并增加了一个新的损失函数,以提高收敛速度。通过协作搬运仿真实验可知,QTRAN Plus能够更快更稳定地学习到机器人的最优路径,其整体表现优于其他对比算法。 展开更多
关键词 多智能体深度强化学习 强化学习 随机博弈 路径规划
下载PDF
智能监控法律问题研究
5
作者 崔浩岩 米玛央宗 +3 位作者 格桑曲珍 高枫 汪阳 刘海廷 《法学(汉斯)》 2020年第3期298-302,共5页
随着我国监控行业的高速发展,智能监控越来越成为监控中的“新宠”。人们希望通过智能监控来降低人工成本、实现敏锐的危害预警等。智能监控集众多种功能于一身,是未来监控发展的方向。但是智能监控在发展过程中带来了许多公民隐私权侵... 随着我国监控行业的高速发展,智能监控越来越成为监控中的“新宠”。人们希望通过智能监控来降低人工成本、实现敏锐的危害预警等。智能监控集众多种功能于一身,是未来监控发展的方向。但是智能监控在发展过程中带来了许多公民隐私权侵权的问题。本文从法律层面进行分析,通过介绍我国智能监控系统的发展现状、列举我国智能监控发展过程中带来的法律问题、通过研究智能监控发展与公民隐私权的冲突,为我国智能监控的发展方向提出对策建议。 展开更多
关键词 智能监控 法律法规 隐私权 法律研究 对策建议
下载PDF
公共安全监控法律问题研究
6
作者 崔浩岩 米玛央宗 +3 位作者 格桑曲珍 高枫 汪阳 刘海廷 《法学(汉斯)》 2020年第2期210-214,共5页
随着我国经济和社会发展,公共管理的需求也在日益增加。在公共场所安置监控器是实现公共管理、保障公民权益的重要手段。很多公共场所都通过安装安全监控器来维持秩序,像街道、社区等都安装了公共安全监控器。虽然公共安全监控的快速发... 随着我国经济和社会发展,公共管理的需求也在日益增加。在公共场所安置监控器是实现公共管理、保障公民权益的重要手段。很多公共场所都通过安装安全监控器来维持秩序,像街道、社区等都安装了公共安全监控器。虽然公共安全监控的快速发展给我们的人身、财产安全带来了保障,但是也产生了一系列的社会问题。因此,本文从法律层面进行分析,结合我国公共安全监控法律制度的发展历程、我国公共安全监控的设置现状、现阶段公共安全监控法律制度存在的问题等,为我国公共安全监控制度提出对策建议。 展开更多
关键词 公共安全 监控制度 对策建议
下载PDF
数字检察助推检察建议办理提质增效
7
作者 崔浩岩 《法学(汉斯)》 2024年第5期3175-3180,共6页
数字检察、检察建议都是检察机关履行法律监督职责的重要手段,2021年中共中央发布了《关于加强新时代检察机关法律监督工作的意见》,其中既着重强调了检察建议的重要作用,同时提出检察机关要以大数据、区块链技术提升法律监督工作能力... 数字检察、检察建议都是检察机关履行法律监督职责的重要手段,2021年中共中央发布了《关于加强新时代检察机关法律监督工作的意见》,其中既着重强调了检察建议的重要作用,同时提出检察机关要以大数据、区块链技术提升法律监督工作能力。作为数字检察的试点,浙江检察已经在数字检察和检察建议相结合上取得了良好的效果,但综合全国来看,仍然可能面临着数据单一、政府部门参与建设的积极性不高以及数据安全等发展困境。本文采用了文献研究法、个案分析法,对数字检察助推检察建议的优势进行了分析,提出了二者相结合过程中可能遇到的问题,并分析了相关原因。有鉴于此,提出如下对策,包括形成以党委为领导,政府为主导的工作机制、推广优秀法律监督模型、适时制发检察建议助力数据获取、出台司法解释保障数据安全。 展开更多
关键词 数字检察 法律监督 检察建议
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部