期刊文献+
共找到102篇文章
< 1 2 6 >
每页显示 20 50 100
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
1
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度Q网络 功率分配
下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究
2
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 Dueling dqn算法
下载PDF
基于DQN的多智能体深度强化学习运动规划方法
3
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能体系统 运动规划 深度强化学习 dqn方法
下载PDF
基于改进DQN的移动机器人避障路径规划
4
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
下载PDF
面向无人艇的T-DQN智能避障算法研究
5
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度Q网络
下载PDF
超密集网络中基于改进DQN的接入选择算法
6
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(dqn) 优先经验回放 负载均衡
下载PDF
基于DQN算法的支线集装箱船航线规划与配载协同优化方法
7
作者 李俊 肖笛 +1 位作者 温想 赵雅洁 《交通信息与安全》 CSCD 北大核心 2023年第6期132-141,共10页
针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设... 针对支线集装箱船运输中喂给港数和靠泊条件不一,以及集装箱船队船型多样的特点,考虑航线规划与配载环节在实际运输过程中的紧密联系,研究支线集装箱船航线规划与配载协同优化方法。采用两阶段分层方法研究航线规划与集装箱配载问题,设置多个港口、不同船型及其贝位和堆栈组合、不同尺寸集装箱的集合,并确定其间基本关系,实现两阶段优化过程的完整性和连续性。第一阶段以航线总运营成本最小为目标建立船舶航线规划模型,第二阶段从主贝计划角度出发进行配载优化,确认集装箱与堆栈的对应关系,以船舶混装堆栈数最小为目标建立船舶配载模型,保证船舶稳性在航线任意时段均满足要求,并减少堆栈混装数量,提高到港作业效率。为实现模型高效求解,基于深度强化学习的Deep Q-learning Network(DQN)算法架构,设计了航线规划与配载决策对应的马尔可夫过程,结合问题自身特征分别完成强化学习智能体状态空间、动作空间以及奖励函数设计,构建了两阶段分层求解的DQN算法。实验结果表明:随着船舶数量和船舶装载率的增加,模型精确求解的时间大幅增加,部分算例无法在600 s内完成求解,而DQN算法可实现快速求解;与模型及粒子群优化(Particle Swarm Optimization,PSO)算法相比,DQN算法可高效求解不同规模下的算例,大规模算例求解最大耗时31.40 s,平均耗时30 s以内,求解效率较好;进一步计算表明,不同喂给港数量下PSO算法在求解时间上的平均标准差为11.20,而DQN算法平均标准差仅为1.74,鲁棒性更好。总体来看,DQN算法在求解时间上随问题规模变化而产生的波动较小,具有更加稳定的求解性能,可实现高效寻优。 展开更多
关键词 支线集装箱船运输 航线规划 集装箱配载 深度强化学习 dqn算法
下载PDF
基于Deep Q-Learning的抽取式摘要生成方法
8
作者 王灿宇 孙晓海 +4 位作者 吴叶辉 季荣彪 李亚东 张少如 杨士豪 《吉林大学学报(信息科学版)》 CAS 2023年第2期306-314,共9页
为解决训练过程中需要句子级标签的问题,提出一种基于深度强化学习的无标签抽取式摘要生成方法,将文本摘要转化为Q-learning问题,并利用DQN(Deep Q-Network)学习Q函数。为有效表示文档,利用BERT(Bidirectional Encoder Representations ... 为解决训练过程中需要句子级标签的问题,提出一种基于深度强化学习的无标签抽取式摘要生成方法,将文本摘要转化为Q-learning问题,并利用DQN(Deep Q-Network)学习Q函数。为有效表示文档,利用BERT(Bidirectional Encoder Representations from Transformers)作为句子编码器,Transformer作为文档编码器。解码器充分考虑了句子的信息富集度、显著性、位置重要性以及其与当前摘要之间的冗余程度等重要性等信息。该方法在抽取摘要时不需要句子级标签,可显著减少标注工作量。实验结果表明,该方法在CNN(Cable News Network)/DailyMail数据集上取得了最高的Rouge-L(38.35)以及可比较的Rouge-1(42.07)和Rouge-2(18.32)。 展开更多
关键词 抽取式文本摘要 BERT模型 编码器 深度强化学习
下载PDF
基于改进DQN算法的机器人路径规划 被引量:1
9
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:2
10
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
下载PDF
基于改进DQN燃气轮机转子故障诊断方法
11
作者 崔英杰 王红军 +1 位作者 张顺利 王星河 《噪声与振动控制》 CSCD 北大核心 2023年第4期109-115,199,共8页
燃气轮机转子系统作为燃气轮机关键部件,由于难以获取敏感故障特征导致故障诊断精度不高,影响设备的安全服役。针对以上问题,提出一种改进深度Q网络(DQN)深度强化学习燃气轮机转子系统故障诊断方法。首先,以采集的一维工况原始振动信号... 燃气轮机转子系统作为燃气轮机关键部件,由于难以获取敏感故障特征导致故障诊断精度不高,影响设备的安全服役。针对以上问题,提出一种改进深度Q网络(DQN)深度强化学习燃气轮机转子系统故障诊断方法。首先,以采集的一维工况原始振动信号为输入,该DQN模型的环境状态采用故障样本集组成,转子故障类型为当前模型输入的动作集合;然后,DQN模型的智能体使用一维宽卷积神经网络(WDCNN)拟合得到Q网络,并使用ε-贪婪策略做出决策动作,反馈奖励和下一状态并存储到经验池内;智能体内采用时间差分误差(TD-error)优先经验回放,使得算法更加稳定和训练收敛;智能体与环境不断交互决策出最大奖励,输出最优策略故障诊断结果。将该模型应用于西储大学轴承数据集与燃气轮机试车台数据集中,分别达到99.2%与98.7%的准确率,可以用于快速有效地进行故障诊断。结果表明该改进DQN模型具有较高的故障诊断准确性与通用性。 展开更多
关键词 故障诊断 燃气轮机转子 深度强化学习 dqn
下载PDF
基于DQN的旋翼无人机着陆控制算法
12
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
下载PDF
A Data Transmission Path Optimization Protocol for Heterogeneous Wireless Sensor Networks Based on Deep Reinforcement Learning
13
作者 Yu Song Zhigui Liu Xiaoli He 《Journal of Computer and Communications》 2023年第8期165-180,共16页
Wireless sensor networks had become a hot research topic in Information science because of their ability to collect and process target information periodically in a harsh or remote environment. However, wireless senso... Wireless sensor networks had become a hot research topic in Information science because of their ability to collect and process target information periodically in a harsh or remote environment. However, wireless sensor networks were inherently limited in various software and hardware resources, especially the lack of energy resources, which is the biggest bottleneck restricting their further development. A large amount of research had been conducted to implement various optimization techniques for the problem of data transmission path selection in homogeneous wireless sensor networks. However, there is still great room for improvement in the optimization of data transmission path selection in heterogeneous wireless sensor networks (HWSNs). This paper proposes a data transmission path selection (HDQNs) protocol based on Deep reinforcement learning. In order to solve the energy consumption balance problem of heterogeneous nodes in the data transmission path selection process of HWSNs and shorten the communication distance from nodes to convergence, the protocol proposes a data collection algorithm based on Deep reinforcement learning DQN. The algorithm uses energy heterogeneous super nodes as AGent to take a series of actions against different states of HWSNs and obtain corresponding rewards to find the best data collection route. Simulation analysis shows that the HDQN protocol outperforms mainstream HWSN data transmission path selection protocols such as DEEC and SEP in key performance indicators such as overall energy efficiency, network lifetime, and system robustness. 展开更多
关键词 HWSNs Clusting deep Reinforcement Learning dqn
下载PDF
基于强化学习DQN算法的智能决策模型研究
14
作者 韩中华 《现代计算机》 2023年第14期52-56,共5页
针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银... 针对强化学习DQN算法的三个优化因子(即Dueling、Double⁃Q以及Prioritized⁃replay)之间是否存在相互促进或抑制的关系,对三个优化因子之间进行随意组合作为交易策略进行研究,并将2020年9月2日至2022年9月2日期间雅虎金融网站上的HDFC银行股票的收盘价作为研究对象。研究结果发现,相较于基线模型,Dueling对股票短期收益预测最为贴合实际,并且对Double⁃Q与Prioritized⁃replay起到了促进作用;Prioritized⁃replay对Double-Q与Dueling起到了抑制作用,而Double⁃Q则对Prioritized⁃replay与Dueling未起到显著性改变。鉴于DQN算法在股票短期收益预测的随机性与预测精度的问题,其未来在金融预测领域将会有更好的应用前景。 展开更多
关键词 dqn算法 深度学习 股票收益预测
下载PDF
基于深度Q神经网络(DQN)的空调冷却水系统无模型优化
15
作者 熊乔枫 李铮伟 赵铭炎 《暖通空调》 2023年第7期88-93,135,共7页
在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(... 在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(DQN)的空调冷却水系统无模型优化方法,该方法以室外空气湿球温度、系统冷负荷及冷水机组开启状态为状态,以冷却塔风机和水泵的频率为动作,以系统性能系数(COP)为奖励。根据实际系统的实测数据进行建模,在模拟环境中使用基于粒子群优化算法的模型优化方法、基于Q值(Q learning)优化的强化学习方法和基于DQN的无模型优化方法进行实验,结果表明基于DQN的无模型优化方法的优化效果最好,有7.68%的平均COP提升与7.15%的节能率,在复杂系统下拥有较好的节能效果。 展开更多
关键词 无模型优化 深度Q神经网络 冷却水系统 优化控制 能耗
下载PDF
基于深度强化学习的工业网络入侵检测研究
16
作者 刘胜全 刘博 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期80-86,共7页
为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型... 为了有效识别工业网络环境中由多条异常数据共同组合的新型攻击,提出了一种基于深度强化学习的融合模型DQN-LSTM.该模型将流量数据的空间特征和时序特征相结合,展开异常检测.在公开的工控网络天然气工厂数据集上进行实验,DQN-LSTM模型在准确率和F1值上与SVM、CNN、LSTM、DQN等方法相比,本文模型的综合性能更好. 展开更多
关键词 工业控制系统 流量异常检测 深度强化学习 dqn LSTM
下载PDF
考虑行为克隆的深度强化学习股票交易策略
17
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
一种分布式会议管理系统的设计与实现
18
作者 凌越 唐继冬 《计算机应用与软件》 北大核心 2024年第1期7-11,25,共6页
基于现代会议管理的需求,设计和实现一种C/S和B/S混合部署的会议管理系统。包括会议管理服务中心和若干个会议现场,会议管理服务中心包括数据服务器、应用服务器、Web服务器、通信网关和出口路由器;会议现场包括若干个便携式电脑、RFID(... 基于现代会议管理的需求,设计和实现一种C/S和B/S混合部署的会议管理系统。包括会议管理服务中心和若干个会议现场,会议管理服务中心包括数据服务器、应用服务器、Web服务器、通信网关和出口路由器;会议现场包括若干个便携式电脑、RFID(Radio Frequency Identification)读卡器、二维码阅读器、信息显示发布设备、现场WLAN设备及用户终端。使用RIA(Rich Internet Application)技术优化了B/S界面,应用RFID对会议过程中的细节进行监控,借助SAAS(Software as a Service)模式实现会议管理按需配置和快速部署。该系统显著提高了会议管理效率。 展开更多
关键词 会议管理 程序设计 射频识别 富媒体应用 深度Q网络
下载PDF
基于用户画像的暖通空调智能调控
19
作者 胡锐 袁海峰 芮忠 《现代电子技术》 北大核心 2024年第1期134-139,共6页
目前,建筑物中的暖通中央空调系统基本上是根据行业准则设置的,然而,多项研究表明,由于用户的偏好、姿态和需求各异,这种传统做法不太可能满足大多数用户的热量需求。为了更精准地满足用户热量需求,使得基于用户行为模式来针对性提高热... 目前,建筑物中的暖通中央空调系统基本上是根据行业准则设置的,然而,多项研究表明,由于用户的偏好、姿态和需求各异,这种传统做法不太可能满足大多数用户的热量需求。为了更精准地满足用户热量需求,使得基于用户行为模式来针对性提高热舒适性成为可能。文中采用深度强化学习的方法实现智能化暖通空调智能送风策略,该策略能够根据环境和用户行为模式动态地确定最佳暖通空调设置(温度设置和送风设置),从而极大提高用户的热舒适度,同时,实验结果还表明该智能调控策略相比传统固定值控制策略具有一定的节能效果。 展开更多
关键词 深度强化学习 用户行为模式 热舒适度 深度学习 建筑节能 服装热阻值 dqn 神经网络
下载PDF
一种基于深度强化学习的频率捷变雷达智能频点决策方法
20
作者 张嘉翔 张凯翔 +2 位作者 梁振楠 陈新亮 刘泉华 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期227-239,共13页
自卫式干扰机发射的瞄准干扰使多种基于信号处理的被动干扰抑制方法失效,对现代雷达产生了严重威胁,频率捷变作为一种主动对抗方式为对抗瞄准干扰提供了可能。针对传统随机跳频抗干扰性能不稳定、频点选取自由度有限、策略学习所需时间... 自卫式干扰机发射的瞄准干扰使多种基于信号处理的被动干扰抑制方法失效,对现代雷达产生了严重威胁,频率捷变作为一种主动对抗方式为对抗瞄准干扰提供了可能。针对传统随机跳频抗干扰性能不稳定、频点选取自由度有限、策略学习所需时间长等问题,该文面向频率捷变雷达,提出了一种快速自适应跳频策略学习方法。首先设计了一种频点可重复选取的频率捷变波形,为最优解提供了更多选择。在此基础上,通过利用雷达与干扰机持续对抗收集到的数据,基于深度强化学习的探索与反馈机制,不断优化频点选取策略。具体来说,通过将上一时刻雷达频点及当前时刻感知到的干扰频点作为强化学习输入,神经网络智能选取当前时刻各子脉冲频点,并根据目标检测结果以及信干噪比两方面评价抗干扰效能,从而优化策略直至最优。从提高最优策略收敛速度出发,设计的输入状态不依赖历史时间步、引入贪婪策略平衡搜索-利用机制、配合信干噪比提高奖励差异。多组仿真实验结果表明,所提方法能够收敛到最优策略且具备较高的收敛效率。 展开更多
关键词 频率捷变雷达 抗干扰 波形设计 瞄准干扰 深度Q网络
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部