检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到2篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于策略蒸馏主仆框架的优势加权双行动者-评论家算法: 1; 作者杨皓麟刘全《计算机科学》 CSCD 北大核心 2024年第11期81-94,共14页; 离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据... 展开更多; 关键词离线强化学习深度强化学习策略蒸馏双行动者-评论家框架经验回放机制; 下载PDF 职称材料

基于双行动者深度确定性策略梯度算法的间歇过程控制被引量：1: 2; 作者马军伟徐琛 +1 位作者陶洪峰杨慧中《信息与控制》 CSCD 北大核心 2023年第6期773-783,810,共12页; 针对传统基于模型的控制方法在处理间歇过程任务时会因为其复杂的非线性动态导致模型不准确,进而影响控制性能的问题,结合强化学习(RL),提出一种不需要过程模型的间歇过程控制方案。首先,该方法通过双行动者并行训练的结构来解决深度强... 展开更多; 关键词间歇过程模型未知强化学习行动者-评论家框架策略梯度算法; 原文传递

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部