期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于期望Sarsa的进港航班排序模型研究 被引量:5
1
作者 何爱平 张建伟 韩云祥 《现代计算机》 2021年第7期55-59,68,共6页
日益增长的航班流量给机场的维护带来了巨大压力的同时,也极大地影响乘客的体验。为了缓解机场的拥堵状况,结合人工智能算法,提出采用强化学习模型对终端区进港航班的序列进行优化。航班排序采用强化学习中的期望Sarsa算法,针对航班的... 日益增长的航班流量给机场的维护带来了巨大压力的同时,也极大地影响乘客的体验。为了缓解机场的拥堵状况,结合人工智能算法,提出采用强化学习模型对终端区进港航班的序列进行优化。航班排序采用强化学习中的期望Sarsa算法,针对航班的延误考虑设计延误时间、延误成本、尾流类型等因素的奖励函数,以航班的预计达到时刻为状态,延误的分钟数为动作,对成都双流国际机场连续进港的20架航班进行仿真实验,结果表明优于现有的基于优先级的先到先服务算法和常见的启发式算法。 展开更多
关键词 航班排序 期望sarsa 强化学习 序列优化
下载PDF
基于DE-SARSA(TS)的跳频系统智能抗干扰决策算法
2
作者 袁泽 赵知劲 《杭州电子科技大学学报(自然科学版)》 2024年第1期6-13,共8页
为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提... 为了提高跳频通信系统在复杂电磁环境下的抗干扰性能,提出一种基于结合汤普森采样(Thompson Sampling)、Dyna模型和期望SARSA学习(Expected Sarsa)的智能抗干扰决策算法。在期望SARSA学习中,引入Dyna模型,将模型学习与强化学习结合,提升了算法收敛速度和稳态性能;采用汤普森采样和Tanh函数改进动作选择机制,提高了算法对环境的探索和利用;以时隙对应的干扰环境为状态,以跳频速率、信号瞬时带宽、频率序列等为动作构造状态动作空间,设计了相应的跳频系统模型和奖励函数。在高斯白噪声、窄带干扰、宽带干扰和扫频干扰并存的复杂干扰环境中的仿真结果表明,此算法兼顾了对环境的探索与利用,比对比算法有更快的收敛速度和更强的抗干扰能力。 展开更多
关键词 复杂电磁环境 跳频系统 期望sarsa学习 汤普森采样 Dyna模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部