期刊文献+
共找到530篇文章
< 1 2 27 >
每页显示 20 50 100
Actor-critic框架下的二次指派问题求解方法
1
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术
2
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 Actor-critic算法 强化学习 目标探测 传感器资源调度
下载PDF
Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning 被引量:3
3
作者 Yun Zou Qing-Zi Xing +4 位作者 Bai-Chuan Wang Shu-Xin Zheng Cheng Cheng Zhong-Ming Wang Xue-Wu Wang 《Nuclear Science and Techniques》 SCIE CAS CSCD 2019年第10期133-141,共9页
This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the pre... This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the predictions of physical designs because of errors in mechanical matching and installation.Therefore,parameter optimization methods such as pointwise scanning,evolutionary algorithms(EAs),and robust conjugate direction search are widely used in beam tuning to compensate for this inconsistency.However,it is difficult for them to deal with a large number of discrete local optima.The A3C algorithm,which has been applied in the automated control field,provides an approach for improving multi-dimensional optimization.The A3C algorithm is introduced and improved for the real-time beam tuning code for accelerators.Experiments in which optimization is achieved by using pointwise scanning,the genetic algorithm(one kind of EAs),and the A3C-algorithm are conducted and compared to optimize the currents of four steering magnets and two solenoids in the low-energy beam transport section(LEBT)of the Xi’an Proton Application Facility.Optimal currents are determined when the highest transmission of a radio frequency quadrupole(RFQ)accelerator downstream of the LEBT is achieved.The optimal work points of the tuned accelerator were obtained with currents of 0 A,0 A,0 A,and 0.1 A,for the four steering magnets,and 107 A and 96 A for the two solenoids.Furthermore,the highest transmission of the RFQ was 91.2%.Meanwhile,the lower time required for the optimization with the A3C algorithm was successfully verified.Optimization with the A3C algorithm consumed 42%and 78%less time than pointwise scanning with random initialization and pre-trained initialization of weights,respectively. 展开更多
关键词 REAL-TIME BEAM tuning Parameter optimization ASYNCHRONOUS ADVANTAGE actor–critic algorithm Low-energy BEAM transport
下载PDF
EZDCP:A new static task scheduling algorithm with edge-zeroing based on dynamic critical paths 被引量:1
4
作者 陈志刚 华强胜 《Journal of Central South University of Technology》 2003年第2期140-144,共5页
A new static task scheduling algorithm named edge-zeroing based on dynamic critical paths is proposed. The main ideas of the algorithm are as follows: firstly suppose that all of the tasks are in different clusters; s... A new static task scheduling algorithm named edge-zeroing based on dynamic critical paths is proposed. The main ideas of the algorithm are as follows: firstly suppose that all of the tasks are in different clusters; secondly, select one of the critical paths of the partially clustered directed acyclic graph; thirdly, try to zero one of graph communication edges; fourthly, repeat above three processes until all edges are zeroed; finally, check the generated clusters to see if some of them can be further merged without increasing the parallel time. Comparisons of the previous algorithms with edge-zeroing based on dynamic critical paths show that the new algorithm has not only a low complexity but also a desired performance comparable or even better on average to much higher complexity heuristic algorithms. 展开更多
关键词 EZDCP directed ACYCLIC graph DYNAMIC critical PATH TASK scheduling algorithm
下载PDF
基于柔性演员-评论家算法的决策规划协同研究
5
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
下载PDF
基于ENTROPY-TOPSIS算法的电路实验课程综合成绩评定方法
6
作者 徐航 孙曼 +2 位作者 印月 王东平 吴海祥 《实验科学与技术》 2024年第2期108-112,共5页
针对高校实践教学成绩评定环节中存在的不足,该文将基于修正ENTROPY-TOPSIS算法应用到实验课程成绩评定当中,并推导了具体算法原理。同时将该算法与常用权值算法层次分析法以及CRITIC算法在电路实践成绩客观赋权过程中进行了横向对比。... 针对高校实践教学成绩评定环节中存在的不足,该文将基于修正ENTROPY-TOPSIS算法应用到实验课程成绩评定当中,并推导了具体算法原理。同时将该算法与常用权值算法层次分析法以及CRITIC算法在电路实践成绩客观赋权过程中进行了横向对比。结果显示该方法可以为多源异构数据的科学赋权提供理论依据,有效消除因主观因素带来的不合理性,使教师在实验成绩的评定上更加趋向于客观化、科学化。 展开更多
关键词 成绩评价 critic算法 ENTROPY算法 TOPSIS算法 赋权
下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
7
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
下载PDF
利用A2C-ac的城轨车车通信资源分配算法
8
作者 王瑞峰 张明 +1 位作者 黄子恒 何涛 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1306-1313,共8页
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出... 在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。 展开更多
关键词 城市轨道交通 资源分配 T2T通信 多智能体深度强化学习 A2C-ac算法
下载PDF
基于深度强化学习的立体投送策略优化方法研究 被引量:2
9
作者 安靖 司光亚 张雷 《系统仿真学报》 CAS CSCD 北大核心 2024年第1期39-49,共11页
基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比... 基于深度强化学习算法在策略优化问题中的良好表现,以立体投送作战行动为主要研究对象,提出了一种深度强化学习框架与仿真推演实验协同的作战行动策略优化方法。在分析策略优化研究现状的基础上,根据研究问题对深度学习框架进行了分析比较,构建了基于A3C算法的深度强化学习立体投送策略模型,并通过仿真推演和分布式计算,实现深度强化学习模型与“人不在回路”仿真推演的交互学习,获得优化后的立体投送策略,验证了深度强化学习框架与仿真推演实验协同优化策略的有效性。 展开更多
关键词 深度强化学习 仿真推演 策略优化 立体投送 A3C算法
下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:1
10
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
下载PDF
复杂产品人工智能生产调度研究
11
作者 余阿东 《机械设计与制造》 北大核心 2024年第7期26-30,共5页
针对复杂产品生产调度协同性不足问题,提出一种基于关键链的多产品人工智能生产调度模式。结合复杂产品时序约束特点,以最小产品拖期和在制品库存为优化目标,搭建了基于关键链的多产品项目人工智能生产调度优化模型,基于遗传算法与模拟... 针对复杂产品生产调度协同性不足问题,提出一种基于关键链的多产品人工智能生产调度模式。结合复杂产品时序约束特点,以最小产品拖期和在制品库存为优化目标,搭建了基于关键链的多产品项目人工智能生产调度优化模型,基于遗传算法与模拟退火算法,设计了遗传退火算法(GA-SA)对多产品项目人工智能生产调度优化模型求解,并以某重型机械企业生产的矿渣立磨为例验证了优化模型和智能算法的有效性,实现了复杂产品生产调度精益性和智能性目标,研究结果表明:采用GA-SA+关键链调度方法,产品可以做到准时交付且在制品库存减少24%。 展开更多
关键词 关键链 复杂产品 生产调度 遗传退火算法 人工智能
下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:8
12
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动Actor-critic 框架
下载PDF
基于强化学习的多无人车协同围捕方法
13
作者 苏牧青 王寅 +1 位作者 濮锐敏 余萌 《工程科学学报》 EI CSCD 北大核心 2024年第7期1237-1250,共14页
本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;... 本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%. 展开更多
关键词 无人车 协同围捕 柔性执行者-评论家算法 注意力机制 奖励函数设计
下载PDF
基于计算重用的无人机辅助边缘计算系统能耗优化
14
作者 李斌 蔡海晨 +1 位作者 赵传信 王俊义 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2740-2747,共8页
针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人... 针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人机服务器的计算频率以及无人机的飞行轨迹,构建满足时延约束下最小化系统平均总能耗的系统模型。其次,通过深度强化学习求解该优化问题,并提出了基于柔性动作-评价(SAC)的优化算法。该算法采用最大熵的策略来鼓励探索,以增强算法的探索能力并加快训练的收敛速度。仿真结果表明,基于SAC的算法能有效降低系统的平均总能耗,并具有较好的收敛性。 展开更多
关键词 无人机 移动边缘计算 计算重用 资源分配 柔性动作-评价算法
下载PDF
稳定且受限的新强化学习SAC算法
15
作者 海日 张兴亮 +1 位作者 姜源 杨永健 《吉林大学学报(信息科学版)》 CAS 2024年第2期318-325,共8页
为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固... 为解决由于固定温度SAC(Soft Actor Critic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:Stable Constrained Soft Actor Critic)。该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果。最后,在4个OpenAI Gym Mujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果。 展开更多
关键词 强化学习 最大熵强化学习 Q值高估 SAC算法
下载PDF
基于MOGWO的45#钢表面激光抛光工艺参数多目标优化
16
作者 梁强 徐永航 +2 位作者 李永亮 王敬 杜彦斌 《表面技术》 EI CAS CSCD 北大核心 2024年第10期173-182,共10页
目的提高45#钢表面激光抛光后的成形质量,提出一种激光抛光工艺参数多目标优化方法。方法构建基于功率、扫描速度、搭接距离的三因素三水平激光抛光试验,并分别应用粗糙度测量仪、显微硬度计和超景深三维显微镜测试抛光层的粗糙度、显... 目的提高45#钢表面激光抛光后的成形质量,提出一种激光抛光工艺参数多目标优化方法。方法构建基于功率、扫描速度、搭接距离的三因素三水平激光抛光试验,并分别应用粗糙度测量仪、显微硬度计和超景深三维显微镜测试抛光层的粗糙度、显微硬度和抛光层深度。基于试验数据,分别应用指数模型和二阶响应面模型构建抛光工艺参数与表面粗糙度、显微硬度、抛光深度的回归预测模型,并对2种模型的预测精度进行对比分析。采用多目标灰狼优化算法(MOGWO)结合优劣解距离法(TOPSIS)-CRITIC综合评价决策体系对抛光工艺参数进行寻优和多属性决策。结果二阶响应面模型具有更高的预测精度,能够更好地反映激光抛光工艺参数与各响应目标之间的映射关系。当功率为113W、扫描速度为3m/min、搭接距离为0.13 mm时,粗糙度值Ra从11.563μm降至5.713μm,降幅为50.59%,显微硬度从185.9HV0.5升至364.7HV0.5,升幅为96.18%,此时的抛光深度为0.051 mm,最大相对误差为7.84%。结论此方法可以为其他金属材料表面激光抛光质量预测模型的构建及工艺参数寻优提供借鉴。 展开更多
关键词 激光抛光 二阶响应面模型 MOGWO算法 TOPSIS-critic 多目标优化
下载PDF
基于SOA的医院设备控制系统设计
17
作者 钱顺鑫 胡晓峰 张之晨 《计算机测量与控制》 2024年第7期92-97,共6页
SOA作为一种非常流行的系统架构设计思想,在各个领域的系统设计中得到了广泛使用;研究对象是一套基于SOA开发的医院设备控制系统;该设备控制系统具备了医疗设备实时监控功能,历史设备使用信息、状态信息、维护信息等的可视化展示功能,... SOA作为一种非常流行的系统架构设计思想,在各个领域的系统设计中得到了广泛使用;研究对象是一套基于SOA开发的医院设备控制系统;该设备控制系统具备了医疗设备实时监控功能,历史设备使用信息、状态信息、维护信息等的可视化展示功能,以及对医院全部设备的实时监控功能;该系统采用基于web service技术实现SOA架构思想,通过分布式的架构设计方法实现了对系统内部功能模块之间复杂逻辑关系的服务治理;此外,为解决医疗设备控制中关键的设备状态感知和故障预警问题,研究设计了一个基于actor-critic强化学习算法的设备状态感知和故障预警算法,实验表明,经过多轮迭代,该算法的预测准确率高达到97.9%,可以有效实现对医疗设备的状态感知和故障预警;经过对系统的部署、测试和验证,证明了该系统可以有效完成项目开始之初设定的功能性和非功能性需求,可以有效承担医院医疗设备管理的任务。 展开更多
关键词 SOA web service 医院设备控制系统 强化学习 actor-critic算法
下载PDF
马克思技术批判理论视域下的平台算法探析
18
作者 汪嘉晨 阎静 《南京航空航天大学学报(社会科学版)》 2024年第1期31-38,共8页
马克思的技术批判理论揭示了资本主义社会中技术存在的二重性,即技术潜在蕴含着人类解放的维度与资本主义社会现实的技术异化。共产主义最终将扬弃资本主义技术异化,恢复无产阶级对技术的占有。算法作为数字社会的底层逻辑架构,其与数... 马克思的技术批判理论揭示了资本主义社会中技术存在的二重性,即技术潜在蕴含着人类解放的维度与资本主义社会现实的技术异化。共产主义最终将扬弃资本主义技术异化,恢复无产阶级对技术的占有。算法作为数字社会的底层逻辑架构,其与数据在数字时代的重要性日趋凸显,二者统一于平台资本体系。平台体系中的算法与资本存在共谋,处于异化状态。马克思的技术批判理论可以透视数字劳动者“困在算法里”和算法推荐两种算法异化样态,揭示资本增殖和意识形态控制的实质,并逐步构建超越资本逻辑的共同富裕逻辑,贯穿平台算法治理,使算法从异化转化为善用,助力于共同富裕的实现。 展开更多
关键词 技术批判 平台算法 共同富裕逻辑
下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
19
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 软行动评论算法 专家经验 防撞策略
下载PDF
改进萤火虫算法求解多目标柔性作业车间调度
20
作者 郑捷 潘大志 《控制工程》 CSCD 北大核心 2024年第2期272-280,共9页
针对多目标柔性作业车间调度问题,以最小化最大完工时间、最小化机器总负荷、最小化机器最大负荷为目标,提出一种改进邻域结构的离散萤火虫算法。首先,采用多种策略相结合的方式初始化种群,提高算法初始解质量以及种群多样性;其次,通过... 针对多目标柔性作业车间调度问题,以最小化最大完工时间、最小化机器总负荷、最小化机器最大负荷为目标,提出一种改进邻域结构的离散萤火虫算法。首先,采用多种策略相结合的方式初始化种群,提高算法初始解质量以及种群多样性;其次,通过改进关键路径的邻域结构并设计离散萤火虫算法的位置更新公式,以增强算法全局搜索和局部搜索能力;最后,将该算法应用于标准数据集,并将求解结果与其他算法进行对比,验证了所提算法的有效性。 展开更多
关键词 多目标 柔性作业车间调度问题 关键路径 邻域结构 离散萤火虫算法
下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部