期刊文献+
共找到361篇文章
< 1 2 19 >
每页显示 20 50 100
基于科研核心素养理念的《交通心理学》实验课程深度教学策略探究
1
作者 缪绿青 王华容 戴家隽 《交通医学》 2024年第2期216-218,共3页
课程是人才培养的核心要素,课程质量直接决定人才培养质量。《交通心理学》作为应用心理学本科生的专业选修课,是一门极具特色的应用性课程,也是体现交通心理专业人才培养质量的关键课程。本研究通过分析当前《交通心理学》实验课程的现... 课程是人才培养的核心要素,课程质量直接决定人才培养质量。《交通心理学》作为应用心理学本科生的专业选修课,是一门极具特色的应用性课程,也是体现交通心理专业人才培养质量的关键课程。本研究通过分析当前《交通心理学》实验课程的现状,基于科研核心素养理念,在实验教学中实施深度教学策略。开展以问题为导向的实践式教学,以合作为基础的个性化教学以及跨学科融合的应用性教学,创建多维评价体系,提高实验课程的教学质量,全面培养学生的科研核心素养。 展开更多
关键词 科研核心素养 交通心理学 深度教学策略
下载PDF
实用文的本质特征与深度阅读策略
2
作者 代顺丽 《语文建设》 北大核心 2024年第17期4-9,共6页
当前的实用文阅读有两个误区:实用文的文学化阅读和把实用文阅读等同于整合信息。这些做法与社会真实情境中的实用文阅读脱节。究其原因主要在于对实用文的本质特征认识不够清晰。实用文的本质特征是通过语言符号表达对事物的认识。它... 当前的实用文阅读有两个误区:实用文的文学化阅读和把实用文阅读等同于整合信息。这些做法与社会真实情境中的实用文阅读脱节。究其原因主要在于对实用文的本质特征认识不够清晰。实用文的本质特征是通过语言符号表达对事物的认识。它有两个要素:一个是有形要素“语言符号”,另一个是隐形要素“对事物的认识”。实用文的深度理解是超越“语言符号”,对准事物本身。其策略主要有:通过实践考察事物,通过技术考察事物,通过联结考察事物。 展开更多
关键词 实用文 本质特征 实用文阅读 深度理解策略
下载PDF
MEC网络中基于深度确定策略梯度的能效优化
3
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
下载PDF
基于多维度优先级经验回放机制的深度确定性策略梯度算法
4
作者 荣垂霆 李海军 +2 位作者 朱恒伟 刘延旭 于士军 《德州学院学报》 2024年第4期21-27,32,共8页
为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类... 为进一步提高深度确定性策略梯度算法在处理强化学习连续动作任务中的收敛速度,提出了一种基于多维度优先级经验回放机制的深度确定性策略梯度算法。首先,针对经验回放机制中样本数据利用率低的问题,利用时间差分误差指标对样本进行分类;其次,利用稀缺性和新奇性两个指标对样本进行评分,并将稀缺性和新奇性的评分进行加权组合,得到最终的优先级评分;最后,将设计的多维度优先级经验回放机制方法应用在深度确定性策略梯度算法中,在强化学习连续控制任务中对改进算法进行测试,实验结果表明,改进算法的收敛速度有所提升。 展开更多
关键词 深度确定性策略梯度算法 强化学习 经验回放机制 多维度优先级
下载PDF
深度确定性策略梯度下运动目标识别及无人机跟随
5
作者 刘欣 张倩飞 +1 位作者 刘成宇 高涵 《西安工程大学学报》 CAS 2024年第4期9-17,共9页
针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy... 针对无人机(unmanned aerial vehicle,UAV)平台采集运动目标图像信息过程中因UAV自身的飞行状态、环境的干扰、目标的随机性等原因易产生运动目标丢失等问题,提出了一种基于运动目标识别的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法UAV跟随方法。面向高速公路的车辆目标,分析了UAV高度、位姿与高速车辆运动之间的关系,建立了移动平台目标检测帧率的速度自适应模型,根据目标的运动状态计算能够相匹配UAV的飞行状态,实时修正飞行姿态与速度,使UAV能够保持与目标的相对位置和角度。继而基于DDPG算法价值网络估计UAV在不同状态下采取特定动作的价值,策略网络生成UAV在给定状态下采取动作的策略,给予UAV飞行高度、速度控制参数用于目标跟踪,使UAV能够根据目标的运动变化自动调节飞行状态,实现运动目标的自适应跟随。仿真实验表明:DDPG算法能够提供稳定的飞行姿态数据,为UAV的跟随任务提供了可靠的控制基础;通过在真实场景下实验验证,UAV能够实时跟踪速度范围0~33 m/s、半径为120 m的圆形面积内的地面运动目标,且在续航范围内能够实现持续稳定跟随。 展开更多
关键词 四轴飞行器 高速公路 动态规划 深度确定性策略梯度 目标跟踪
下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制
6
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 双延迟深度确定性策略梯度(TD3) 受电弓主动控制
下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理
7
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定性策略梯度
下载PDF
指向深度学习的高中数学深度教学策略
8
作者 李凯 钱恺华 《中文科技期刊数据库(全文版)教育科学》 2024年第10期0070-0073,共4页
新高考对高中阶段的数学教学提出新要求,强调教学活动应当促进学生在数学领域的综合发展,在这一背景下,深度学习受到更多的关注,成为数学教师提升课堂教学效果、培养学生数学素养的重要手段。对此,本文针对深度学习的概念进行简单探讨,... 新高考对高中阶段的数学教学提出新要求,强调教学活动应当促进学生在数学领域的综合发展,在这一背景下,深度学习受到更多的关注,成为数学教师提升课堂教学效果、培养学生数学素养的重要手段。对此,本文针对深度学习的概念进行简单探讨,而后探讨落实深度教学的重要意义,进而对于如何在高中数学教学中落实深度教学提出对应策略,希望能为高中数学教师落实深度教学提供一定参考,也为学生的数学学习与综合发展形成帮助。 展开更多
关键词 深度学习 高中数学 深度教学策略
下载PDF
CR-NOMA中基于深度确定策略梯度的能效优化策略
9
作者 张云 《电信科学》 北大核心 2024年第5期112-120,共9页
利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深... 利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深度确定策略梯度的能效优化(deep deterministic policy gradientbased energy efficiency optimization,DPEE)算法。DPEE算法通过联合优化传感设备的传输功率和时隙分裂系数,提升传感设备的能效。将能效优化问题建模成马尔可夫决策过程,再利用深度确定策略梯度法求解。最后,通过仿真分析了电路功耗、时隙时长和主设备数对传感能效的影响。仿真结果表明,能效随传感设备电路功耗的增加而下降。此外,相比于基准算法,提出的DPEE算法提升了能效。 展开更多
关键词 传感设备 能量采集 认知无线电非正交多址接入 能效 深度确定策略梯度
下载PDF
基于乐观探索的双延迟深度确定性策略梯度
10
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定性策略梯度 探索策略 乐观探索
下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
11
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定性策略梯度
下载PDF
浅谈信息技术与小学数学教学深度融合的策略
12
作者 凌伟兴 《传奇故事》 2024年第2期85-86,共2页
目前,随着信息技术的不断发展,小学数学教学也进入了一个全新的现代化教学模式。将信息技术与小学数学教学进行深度的融合,逐步的发挥信息技术在小学数学教学中的优势,以此来提升小学数学教学的效率。因此,在新课标背景下,我们教师应该... 目前,随着信息技术的不断发展,小学数学教学也进入了一个全新的现代化教学模式。将信息技术与小学数学教学进行深度的融合,逐步的发挥信息技术在小学数学教学中的优势,以此来提升小学数学教学的效率。因此,在新课标背景下,我们教师应该积极探求信息技术与小学数学教学相融合的教学手段,渗透数学核心素养展开教学,利用信息技术来提升教学效率、激发学生数学兴趣,丰富课堂教学资源等等,让学生可以在丰富有趣的数学课堂上学到更多的数学知识,获得良好的学习体验。 展开更多
关键词 信息技术 小学数学 深度融合策略
下载PDF
试论互联网、大数据、人工智能和实体经济的深度融合策略
13
作者 李金芝 彭娟 龙丹 《科学咨询》 2024年第5期13-16,共4页
本文以现阶段我国互联网、大数据、人工智能与实体经济的融合现状为基础,对现代信息技术与产业融合发展策略进行分析,从深度融合的现状入手,分析信息技术与实体经济的融合方向,并针对如何进一步加强互联网、大数据、人工智能和实体经济... 本文以现阶段我国互联网、大数据、人工智能与实体经济的融合现状为基础,对现代信息技术与产业融合发展策略进行分析,从深度融合的现状入手,分析信息技术与实体经济的融合方向,并针对如何进一步加强互联网、大数据、人工智能和实体经济深度融合策略进行探讨。从我国实体经济的整体发展路线来看,我国的信息技术在实体经济领域的应用较为广泛,但与实体经济的融合仍有不足。这需要国家对实体经济发展现状进行政策整合,逐步引导信息技术融入实体经济产业链中,加速以信息技术带动实体经济增长的步伐。 展开更多
关键词 互联网 大数据 人工智能 实体经济 深度融合策略
下载PDF
基于深度强化学习算法的投资组合策略与自动化交易研究
14
作者 杨旭 刘家鹏 +1 位作者 越瀚 张芹 《现代电子技术》 北大核心 2024年第6期154-160,共7页
投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法... 投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法,利用深度学习的BiLSTM来预测股价的涨跌,以强化学习的智能体进行观测,更好地判断当期情况,从而确定自己的交易动作;同时,利用传统的投资组合策略来建立交易的预权重,使智能体可以在自动化交易的过程中进行对比,从而不断优化自己的策略选择,生成当期时间点内最优的投资组合策略。文章选取美股的10支股票进行实验,在真实的市场模拟下表明,基于深度强化学习算法的模型累计收益率达到了86.5%,与其他基准策略相比,收益最高,风险最小,具有一定的实用价值。 展开更多
关键词 投资组合策略 自动化交易 深度强化学习 BiLSTM 深度确定性策略梯度(DDPG) 权重对比
下载PDF
小学语文古诗词深度教学策略研究
15
作者 王宁 《女报》 2024年第12期0051-0053,共3页
古诗词作为中华优秀文化的重要组成部分,对培养学生的语言表达能力、审美情趣及价值观等方面具有重要意义。然而,在现实教学中,由于种种原因,古诗词教学往往只停留在表面,学生缺乏深入理解和体验。本研究通过分析小学语文古诗词深度教... 古诗词作为中华优秀文化的重要组成部分,对培养学生的语言表达能力、审美情趣及价值观等方面具有重要意义。然而,在现实教学中,由于种种原因,古诗词教学往往只停留在表面,学生缺乏深入理解和体验。本研究通过分析小学语文古诗词深度教学的内涵和价值,针对如何在小学语文教学中实施深度教学策略展开探讨,以期有效提升学生的诗词文化素养和语文综合素养,优化小学语文教学质量。 展开更多
关键词 小学教育 语文学科 古诗词 深度教学策略
下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究
16
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:3
17
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
下载PDF
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:7
18
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案
下载PDF
基于深度确定性梯度算法的端到端自动驾驶策略 被引量:1
19
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定性策略梯度 监督式深度强化学习
下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
20
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部