期刊文献+
共找到114篇文章
< 1 2 6 >
每页显示 20 50 100
智能革命与人类深度智能化前景(笔谈) 被引量:14
1
作者 刘大椿 成素梅 +2 位作者 段伟文 刘永谋 杨庆峰 《山东科技大学学报(社会科学版)》 2019年第1期1-10,34,共11页
近年来,大数据、人工智能、机器人产业与应用方兴未艾,智能革命与智能化社会的愿景呼之欲出。为了把握人工智能赋能新时代的历史机遇,必须处理好人工智能等智能革命新发展在法律、安全、就业、道德伦理和政府治理等方面提出的新课题,使... 近年来,大数据、人工智能、机器人产业与应用方兴未艾,智能革命与智能化社会的愿景呼之欲出。为了把握人工智能赋能新时代的历史机遇,必须处理好人工智能等智能革命新发展在法律、安全、就业、道德伦理和政府治理等方面提出的新课题,使人工智能等科技进步成为造福人类生活和创造美好生活新时代的引擎。这就切实需要我们认真地探讨智能革命在人类生命、行为、认知和情感等层面可能带来深度智能化演进的可能性。为了对智能革命的本质、表现与前景展开全面深刻的哲学反思,上海市科协、中国社会科学院科学技术和社会研究中心委托上海市自然辩证法研究会在上海科学会堂承办了国家社科基金重大项目"智能革命与人类深度科技化前景的哲学研究"课题组(首席专家:段伟文)"智能革命、城市与人类未来"专题研讨会。为进一步廓清智能革命的本质、智能革命对人类的深远影响、智能革命与人类认知及其与生活的深度智能化前景的认识,根据会议发言内容,我们特邀刘大椿、成素梅、段伟文、刘永谋、杨庆峰五位学者整理出这组笔谈,以增进人们对人工智能发展的未来影响等相关问题的深入研讨。 展开更多
关键词 智能革命 人类深度智能 第四次科技革命 人类前景 解析社会 机器乌托邦 人类记忆
下载PDF
基于物联网轮胎花纹深度智能检测系统设计与实现 被引量:4
2
作者 叶海雄 杨斌超 +1 位作者 匡兴红 王世明 《电子测量技术》 2018年第7期11-15,共5页
随着车辆增加,道路交通事故明显增长,定期检测车轮胎花纹深度是保障道路安全的关键点之一。设计并实现了基于物联网的轮胎花纹深度智能检测系统。采用位移传感器技术、嵌入式技术、GPRS通信技术、云端平台服务器数据处理技术及移动终端... 随着车辆增加,道路交通事故明显增长,定期检测车轮胎花纹深度是保障道路安全的关键点之一。设计并实现了基于物联网的轮胎花纹深度智能检测系统。采用位移传感器技术、嵌入式技术、GPRS通信技术、云端平台服务器数据处理技术及移动终端APP应用技术实现轮胎花纹深度的数据检测、采集、发送、处理与评估,并通过移动终端提供轮胎养护建议。测试结果表明,该系统数据检测准确,便于携带,集成度高、稳定性高、可靠性强,可在我国道路交通车辆安全系统中广泛推广,树立科技创新、绿色环保的发展理念。 展开更多
关键词 物联网 GPRS 花纹深度智能检测系统 云端平台 移动终端APP
下载PDF
多智能体深度强化学习研究进展
3
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 智能深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法
4
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 智能深度强化学习 交通拥堵 高速公路 交通效率 交通安全
下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:1
5
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 智能深度强化学习 深度Q网络
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
6
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 智能深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于多智能体深度强化学习的多星观测任务分配方法
7
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 智能体系统 深度强化学习 多星系统 智能深度确定性策略梯度算法 任务规划
下载PDF
一种基于梯度的多智能体元深度强化学习算法
8
作者 赵春宇 赖俊 +1 位作者 陈希亮 张人文 《计算机应用研究》 CSCD 北大核心 2024年第5期1356-1361,共6页
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到... 多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应,找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸Ⅱ上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。 展开更多
关键词 元学习 深度强化学习 梯度下降 智能深度强化学习
下载PDF
基于多智能体深度Q网络交互的板壳加强筋生长式设计
9
作者 钟意 杨勇 +3 位作者 姜学涛 潘顺洋 朱其新 王磊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第8期1397-1404,共8页
基于板壳加强筋生长步序列的马尔可夫性质,提出了板壳加强筋生长式设计的强化学习驱动策略。以结构整体应变能最小化为目标,运用马尔可夫决策过程对板壳加强筋的生长过程进行建模。通过引入多智能体系统,共享加强筋生长式过程的状态奖... 基于板壳加强筋生长步序列的马尔可夫性质,提出了板壳加强筋生长式设计的强化学习驱动策略。以结构整体应变能最小化为目标,运用马尔可夫决策过程对板壳加强筋的生长过程进行建模。通过引入多智能体系统,共享加强筋生长式过程的状态奖励并记忆特定动作,降低学习复杂度,实现了加强筋生长式过程奖励值的波动收敛,达成板壳加强筋生长式设计策略。最后给出算例并将平滑处理后的加强筋布局与经典算法的设计结果进行对比,验证了基于多智能体深度Q网络交互的板壳加强筋生长式设计的有效性。 展开更多
关键词 板壳加强筋 生长式 智能深度Q网络 布局设计 强化学习
下载PDF
基于值函数分解的多智能体深度强化学习方法研究综述
10
作者 高玉钊 聂一鸣 《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页
多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和... 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述。 展开更多
关键词 智能深度强化学习 值函数分解 拟合能力 收敛效果 可扩展性
下载PDF
基于多层感知机的人工智能深度学习在福建省地表水水质模拟上的应用
11
作者 刘继辉 《中文科技期刊数据库(全文版)自然科学》 2024年第4期0001-0004,共4页
福建省主要流域水质今年来已处在“高位运行”的阶段,但是仍有小部分国省控断面存在未稳定达标的风险。因此,对地表水水质进行准确预测和预警,对水环境管理与污染防治有重要的意义。目前,因污染来源的复杂性而导致的且难以准确计量,使... 福建省主要流域水质今年来已处在“高位运行”的阶段,但是仍有小部分国省控断面存在未稳定达标的风险。因此,对地表水水质进行准确预测和预警,对水环境管理与污染防治有重要的意义。目前,因污染来源的复杂性而导致的且难以准确计量,使用人工智能深度学习的方法进行流域水质模拟已经成为水质预测预报方向的研究热门。本研究使用多层感知机的人工智能深度学习在福建省闽江流域闽侯竹岐国考断面上进行水质模拟,并尝试在其他国控断面上进行推广应用。 展开更多
关键词 地表水 多层感知机 人工智能深度学习 水质模拟
下载PDF
基于多智能体深度强化学习的配电网无功电压控制策略
12
作者 杨一飞 《电气自动化》 2024年第2期40-42,共3页
为满足分布式电源高比例接入配电网对电压控制的需求,提出了一种基于多智能体深度强化学习的配电网无功-电压控制策略。首先,以配电网节点电压偏移最小为优化目标构建数学模型,将每个分布式光伏逆变器建模为一个智能体;然后,通过配电网... 为满足分布式电源高比例接入配电网对电压控制的需求,提出了一种基于多智能体深度强化学习的配电网无功-电压控制策略。首先,以配电网节点电压偏移最小为优化目标构建数学模型,将每个分布式光伏逆变器建模为一个智能体;然后,通过配电网分区把逆变器协同控制问题建为各个子区域的去中心化部分可观测马尔科夫决策过程,采用多智能体双延迟深度确定性策略梯度算法求解实时优化控制策略;最后在IEEE 33节点系统上进行仿真测试。结果表明,所提方法在配电网无功电压控制上具备有效性。 展开更多
关键词 配电网 无功电压控制 分布式电源 智能深度强化学习 马尔科夫过程
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
13
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 智能深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 智能体Softmax深层双确定性策略梯度
下载PDF
基于多智能体深度强化学习的实时配电网电压优化控制方法研究
14
作者 周荃 《电器工业》 2024年第5期40-44,共5页
本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计... 本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计中的局限性。通过仿真测试,研究展示了该方法在电压控制和降低网损方面的显著优势,特别在多变电网环境中表现出高效的适应性和鲁棒性。本研究不仅推进了MADRL技术在电力系统中的应用,也为实际电网运行提供了有效的控制策略,增强了电力系统的可靠性和稳定性。 展开更多
关键词 配电网电压控制 智能深度强化学习 双延迟深度确定性策略梯度算法 电网鲁棒性
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
15
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 智能深度确定性策略梯度
下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:3
16
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 智能深度强化学习
下载PDF
面向主动配电网的安全多智能体深度强化学习电压优化控制 被引量:2
17
作者 梅铭洋 寇鹏 +1 位作者 张智豪 梁得亮 《西安交通大学学报》 EI CAS CSCD 北大核心 2023年第12期157-167,共11页
针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小... 针对主动配电网电压优化控制中模型不确定性和通信代价大的问题,提出了一种基于灵敏度矩阵安全的多智能体深度强化学习(SMS-MADRL)算法。该算法利用安全深度强化学习,应对主动配电网的固有不确定性,并采用多智能体结构实现通信代价较小的分布式控制。首先,将电压优化控制问题描述为受约束的马尔可夫博弈(CMG);然后,对无功功率进行适当修改,通过分析节点电压的变化得到灵敏度矩阵,进而与主动配电网环境进行交互,训练出若干可以独立给出最优无功功率指令的智能体。与现有多智能体深度强化学习算法相比,该算法的优点在于给智能体的动作网络增添了基于灵敏度矩阵的安全层,在智能体的训练和执行阶段保证了主动配电网的电压安全性。在IEEE 33节点系统上的仿真结果表明:所提出的算法不仅能够满足电压约束,而且相较于多智能体深度确定性策略梯度(MADDPG)算法,网络损耗减少了4.18%,控制代价减少了70.5%。该研究可为主动配电网的电压优化控制提供理论基础。 展开更多
关键词 主动配电网 电压优化控制 智能深度强化学习 安全深度强化学习
下载PDF
灾害应急场景下基于多智能体深度强化学习的任务卸载策略 被引量:1
18
作者 米德昌 王霄 +1 位作者 李梦丽 秦俊康 《计算机应用研究》 CSCD 北大核心 2023年第12期3766-3771,3777,共7页
针对传统深度强化学习(deep reinforcement learning, DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据... 针对传统深度强化学习(deep reinforcement learning, DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法(ADE)的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络(deep deterministic policy gradient, DDPG)节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。 展开更多
关键词 灾害应急 任务卸载 智能深度强化学习 自适应差分进化算法
下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:3
19
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 智能深度强化学习 卷积神经网络 深度Q学习网络
下载PDF
人工智能深度学习的合理使用研究 被引量:3
20
作者 沈玥 《湖北经济学院学报(人文社会科学版)》 2023年第7期72-77,共6页
人工智能深度学习技术通过海量数据收集、分析和建模,不依赖人类事前编程即可自主习得创造能力,已在艺术科学等领域广泛应用,但其数据输入阶段的复制行为可能引发著作权侵权风险。为了维持利益平衡,促进技术发展,有必要将人工智能深度... 人工智能深度学习技术通过海量数据收集、分析和建模,不依赖人类事前编程即可自主习得创造能力,已在艺术科学等领域广泛应用,但其数据输入阶段的复制行为可能引发著作权侵权风险。为了维持利益平衡,促进技术发展,有必要将人工智能深度学习行为判定为合理使用。影响判定的主要因素有两个:使用性质和目的、对原作品潜在市场利益的影响。完善我国的人工智能深度学习合理使用判定规则,或是可以通过《著作权法实施条例》明确新的合理使用情形;或是可以细化合理使用一般条款,在三步检验法的基础上,设置以四要素标准为内容的司法解释,重点考量转换性使用和市场影响因素。 展开更多
关键词 人工智能深度学习 合理使用 转换性使用 四要素标准 三步检验法
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部