期刊文献+
共找到373篇文章
< 1 2 19 >
每页显示 20 50 100
Convergence of Markov decision processes with constraints and state-action dependent discount factors 被引量:2
1
作者 Xiao Wu Xianping Guo 《Science China Mathematics》 SCIE CSCD 2020年第1期167-182,共16页
This paper is concerned with the convergence of a sequence of discrete-time Markov decision processes(DTMDPs)with constraints,state-action dependent discount factors,and possibly unbounded costs.Using the convex analy... This paper is concerned with the convergence of a sequence of discrete-time Markov decision processes(DTMDPs)with constraints,state-action dependent discount factors,and possibly unbounded costs.Using the convex analytic approach under mild conditions,we prove that the optimal values and optimal policies of the original DTMDPs converge to those of the"limit"one.Furthermore,we show that any countablestate DTMDP can be approximated by a sequence of finite-state DTMDPs,which are constructed using the truncation technique.Finally,we illustrate the approximation by solving a controlled queueing system numerically,and give the corresponding error bound of the approximation. 展开更多
关键词 discrete-time Markov decision processes state-action dependent discount factors unbounded costs CONVERGENCE
原文传递
潜在空间中的策略搜索强化学习方法
2
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
下载PDF
基于混合强化学习的主动配电网故障恢复方法
3
作者 徐岩 陈嘉岳 马天祥 《电力系统及其自动化学报》 CSCD 北大核心 2024年第4期50-58,共9页
针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,... 针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,根据状态空间和动作空间特点,提出一种混合强化学习方法,该方法使用竞争架构双深度Q网络算法处理离散动作空间,进行开关动作;然后,使用深度确定性策略梯度算法处理连续动作空间,调节电源出力;最后,通过IEEE33节点系统仿真实验验证所提方法的可行性和优越性。 展开更多
关键词 主动配电网 故障恢复 混合强化学习 状态空间 动作空间
下载PDF
国企改革三年行动收官后国企改革重点方向思路研究
4
作者 刘方 《当代经济管理》 北大核心 2024年第6期53-61,共9页
国企是推进中国式现代化的核心主体,是实现中华民族伟大复兴和有效应对世界百年未有之大变局的重要力量。文章重点描述国企改革三年行动取得的主要成绩,通过三年行动破除了一批体制机制障碍,有效解决了一批长期没有解决的难题,在许多重... 国企是推进中国式现代化的核心主体,是实现中华民族伟大复兴和有效应对世界百年未有之大变局的重要力量。文章重点描述国企改革三年行动取得的主要成绩,通过三年行动破除了一批体制机制障碍,有效解决了一批长期没有解决的难题,在许多重要领域和关键环节实现重塑、重构;同时,阐述了当前国企改革存在的问题,在支撑企业核心竞争力提高和核心功能增强方面还有不足,在支撑中国式现代化建设中还存在诸多体制机制障碍;最后,提出了未来进一步推进国企改革的主要思路。研究得出,要继续通过实施更具战略性、系统性、突破性、实质性的国企改革提升行动,建设中国特色现代新国企,充分发挥在建设现代化产业体系、构建新发展格局中的科技创新、产业控制、安全支撑、国计民生、公共服务功能与作用。 展开更多
关键词 国企改革 三年行动 重点方向 思路
下载PDF
国家介入与地方行动:乡村内生发展的张力及其化解
5
作者 文军 陈雪婧 《南京农业大学学报(社会科学版)》 北大核心 2024年第1期1-13,共13页
基层社会发展离不开国家的适时介入与有效引领。在乡村内生发展的现实背景下,国家适时介入并有效引领乡村社会的良性变革,是乡村建设的主要路径和基本内容,然而其中存在的一定的现实张力也给乡村内生发展实践带来了挑战。本文从新内生... 基层社会发展离不开国家的适时介入与有效引领。在乡村内生发展的现实背景下,国家适时介入并有效引领乡村社会的良性变革,是乡村建设的主要路径和基本内容,然而其中存在的一定的现实张力也给乡村内生发展实践带来了挑战。本文从新内生发展的视角,梳理乡村发展实践中国家介入和乡村自主行动的具体方式,并分析在此过程中国家介入与地方行动之间的张力,其具体表现为:第一,在政策定位层面,国家宏观政策与基层行动策略难以统合,构成国家本位和地方本位的张力;第二,在治理形态层面,他治与自治的合作缺乏弹性空间,构成行政化他治和地方性自治的张力;第三,在资源配置层面,基层政绩要求和能力欠缺,构成重点帮扶和均等投放的张力;第四,在行动主体层面,国家介入农民行动的边界不清,构成国家主导和农民自主行动的张力。在多重张力并存的情况下,国家与农民互构式的新内生发展机制可以缓解张力之冲突,通过合作式吸纳、培育农民自组织、完善资源分配方式、建立超地方的行动者网络等方式,或能促进国家介入与地方行动的协调互动,共同推动乡村迈向内生发展的新阶段。 展开更多
关键词 内生发展 国家介入 地方行动 乡村治理
下载PDF
白虎汤纳米相态相关研究进展
6
作者 刘森 韦少强 张世栋 《中兽医医药杂志》 CAS 2024年第2期33-37,共5页
中药汤剂包含真溶液、纳米相态、乳浊液和混悬液,是一种复杂的多分散相体系。中药汤剂的有效成分主要存在于纳米相态中,与中药汤剂相比,中药纳米相态具有溶解性强、稳定性高、药效佳等特点。随着研究的深入,有学者提出汤剂中的纳米粒子... 中药汤剂包含真溶液、纳米相态、乳浊液和混悬液,是一种复杂的多分散相体系。中药汤剂的有效成分主要存在于纳米相态中,与中药汤剂相比,中药纳米相态具有溶解性强、稳定性高、药效佳等特点。随着研究的深入,有学者提出汤剂中的纳米粒子可能起着增溶与靶向递送的作用。白虎汤是清热类经典方剂之一,被称为“寒剂祖方”,由石膏、知母、炙甘草、粳米四味药材配伍而成,用于治疗阳明经证或气分热盛证,现代临床上应用广泛。白虎汤纳米相态可能包裹药物有效成分,实现药物的靶向性治疗。研究发现白虎汤药液的纳米相态中主要药效成分的含量明显高于药液中的其他相态,纳米相态对汤剂中主要解热成分芒果苷、新芒果苷、钙离子、甘草酸和甘草次酸起到了增溶作用,纳米相态是白虎汤发挥解热作用的关键组分。本文从白虎汤纳米相态的形成理论、物质基础、分子表征、药理作用等方面进行综述,为深入探究白虎汤的作用机制、创制纳米相态制剂提供思路,为推动纳米技术在中药方剂创新中的应用提供参考。 展开更多
关键词 白虎汤 纳米相态 物质基础 相态表征 药理作用
下载PDF
全民教育:实现人民精神富有的国家行动
7
作者 于春玲 周赫群 《河南师范大学学报(哲学社会科学版)》 北大核心 2024年第1期143-149,共7页
建设全民终身学习的教育体系,形成全民终身学习的学习型社会、学习型大国,是实现全体人民精神富有的重要途径。党的十八大以来,习近平总书记站在新时代党和国家事业发展全局的高度,大力推动全民教育建设迈出新步伐、取得新成就。在指导... 建设全民终身学习的教育体系,形成全民终身学习的学习型社会、学习型大国,是实现全体人民精神富有的重要途径。党的十八大以来,习近平总书记站在新时代党和国家事业发展全局的高度,大力推动全民教育建设迈出新步伐、取得新成就。在指导思想上坚持以党的创新理论凝心铸魂,在制度保障上坚持马克思主义在意识形态领域的指导地位,在载体构建上着力培育和践行社会主义核心价值观,在文化资源上积极推动构建中国自主知识体系,在基本底色上统筹推进大中小学思想政治教育一体化,全面开启了实现人民精神富有的国家行动。 展开更多
关键词 全民教育 精神富有 国家行动
下载PDF
现代汉语叹词的互动功能初探
8
作者 张瑞祥 方梅 《辞书研究》 2024年第3期36-47,I0002,共13页
从互动交际视角观察,叹词对言谈互动语境的依赖程度存在差异。文章基于《现代汉语词典》第7版叹词的释义归纳,对比考察自然口语语料中叹词的用法分布,将叹词的功能归纳为四个方面,即:认识状态表达、言者态度表达、情感表达和独立实施互... 从互动交际视角观察,叹词对言谈互动语境的依赖程度存在差异。文章基于《现代汉语词典》第7版叹词的释义归纳,对比考察自然口语语料中叹词的用法分布,将叹词的功能归纳为四个方面,即:认识状态表达、言者态度表达、情感表达和独立实施互动行为。《现代汉语词典》第7版对叹词的单句例释体现了叹词用法的互动性,基于上述表达功能分析,辞书在叹词的释义模式上仍可再做优化。 展开更多
关键词 叹词 认识状态表达 态度表达 情感表达 互动行为实施
下载PDF
具有一般非线性项的基尔霍夫方程的规范基态解
9
作者 张丁良 罗虎啸 《浙江师范大学学报(自然科学版)》 CAS 2024年第3期266-274,共9页
研究了全空间上带有一般非线性项的基尔霍夫方程规范基态解的存在性问题,利用集中紧性原理证明了极值函数的存在性.另外,根据最小作用解的山路特征,证明了规范基态解与最小作用解是一致的.
关键词 质量约束 规范基态解 最小作用解 基尔霍夫方程
下载PDF
KAP-HBM联合干预模式应用于结肠镜检查患者中的效果
10
作者 张佳蓉 李小玲 +3 位作者 阳周 洪彩燕 陈艳萍 庄云英 《中外医学研究》 2024年第5期99-103,共5页
目的:探讨知信行-健康信念(KAP-HBM)联合干预模式应用于结肠镜检查患者中的效果。方法:回顾性选取2021年4月—2023年4月中国人民解放军联勤保障部队第九一〇医院收治的100例结肠镜检查患者的资料。根据干预方式的不同将其分为对照组和... 目的:探讨知信行-健康信念(KAP-HBM)联合干预模式应用于结肠镜检查患者中的效果。方法:回顾性选取2021年4月—2023年4月中国人民解放军联勤保障部队第九一〇医院收治的100例结肠镜检查患者的资料。根据干预方式的不同将其分为对照组和观察组,各50例。对照组采用常规干预模式,观察组采用KAP-HBM联合干预模式。比较两组肠道准备质量和肠道准备依从性,干预前后心理状态及不良反应。结果:对照组肠道准备充分占比为76.00%(38/50),低于观察组的92.00%(46/50),差异有统计学意义(χ^(2)=4.761,P=0.029)。观察组Boston肠道准备量表(BBPS)评分、饮食准备、服药准备评分及总分均高于对照组,差异有统计学意义(P<0.05)。干预后,两组焦虑自评量表(SAS)评分、抑郁自评量表(SDS)评分均低于干预前,观察组SAS评分、SDS评分均低于对照组,差异有统计学意义(P<0.05)。观察组不良反应发生率(4.00%)低于对照组(18.00%),差异有统计学意义(P<0.05)。结论:KAP-HBM联合干预模式能够提高结肠镜检查患者的肠道准备质量和依从性,改善患者的心理状态,减少不良反应的发生。 展开更多
关键词 知信行-健康信念 结肠镜 肠道准备 心理状态
下载PDF
基于国企改革三年行动背景下的国企经济效益提升策略研究
11
作者 毛临玲 《商业观察》 2024年第3期29-32,共4页
国企经济效益能否得到必要的提高优化,在根本上决定了国企自身具备的综合竞争实力,并且关系到国企在行业领域的优势地位。现阶段各个行业的国企正在全面致力于企业运营管理的经济利润优化提高,只有通过合理控制与降低国企的业务实施以... 国企经济效益能否得到必要的提高优化,在根本上决定了国企自身具备的综合竞争实力,并且关系到国企在行业领域的优势地位。现阶段各个行业的国企正在全面致力于企业运营管理的经济利润优化提高,只有通过合理控制与降低国企的业务实施以及内控管理成本,才能达到国企经济效益明显提高的目标。国企改革三年的行动宗旨在于推进国企实现各个层面领域的实践改革工作,促进国企的全新发展体系格局尽快形成,激发国企人员的创新热情。文章探讨了国企经济效益在国企改革三年行动下的提升优化要点,以健全国企现有的经营管理规范体系以及内控管理。 展开更多
关键词 国企改革三年行动 国企经济效益 提升策略要点
下载PDF
潜在空间中深度强化学习方法研究综述
12
作者 赵婷婷 孙威 +2 位作者 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2023年第9期2047-2074,共28页
深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在... 深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在空间的深度强化学习成为该领域的主流方法。系统地综述了基于潜在空间的表示学习在深度强化学习中的研究进展,分析并总结了现有基于潜在空间的深度强化学习的方法,将其分为潜在空间中的状态表示、动作表示以及动力学模型进行详细阐述。其中,潜在空间中的状态表示又被分为基于重构方式的状态表示方法、基于互模拟等价的状态表示方法及其他状态表示方法。最后,列举了现有基于潜在空间的强化学习在游戏领域、智能控制领域、推荐领域及其他领域的成功应用,并浅谈了该领域的未来发展趋势。 展开更多
关键词 强化学习 深度学习 潜在空间 状态表示 动作表示
下载PDF
一种准确识别损失场景的STPA 被引量:1
13
作者 钟德明 宫浩原 孙睿 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第2期311-323,共13页
“系统理论事故模型与过程”(STAMP)理论认为系统安全是系统的涌现属性,因此,更准确地揭示了现代复杂系统的危险成因。依据该理论构建的“系统理论过程分析”(STPA)是一种新型危险分析方法,得到越来越多的关注,目前已被多份国际标准所... “系统理论事故模型与过程”(STAMP)理论认为系统安全是系统的涌现属性,因此,更准确地揭示了现代复杂系统的危险成因。依据该理论构建的“系统理论过程分析”(STPA)是一种新型危险分析方法,得到越来越多的关注,目前已被多份国际标准所采纳。但STPA仍以人工分析为主,当系统较复杂时,损失场景呈现涌现特性,STPA难以识别这类损失场景。提出改进的STPA,澄清了不安全控制动作(UCA)、损失场景、过程模型等概念,利用状态机构建识别UCA和损失场景所需要的全部行为,利用模型检测技术识别时间相关或不相关UCA的损失场景,改进后的STPA具备准确识别涌现损失场景的能力,可以减少“漏报”或“误报”。 展开更多
关键词 系统理论过程分析 有限状态机 模型检测 不安全控制动作 损失场景
下载PDF
目标策略模式下知信行干预对脑出血患者心理状态及生活质量的影响
14
作者 张凌 卢燕华 +2 位作者 胡庭香 郭峰 黄玉菁 《中国当代医药》 CAS 2023年第31期184-188,共5页
目的探讨目标策略模式下知信行干预对脑出血患者心理状态及生活质量的影响。方法选择2021年1月至12月在赣州市人民医院神经科接受救治的66例脑出血患者为研究对象,依据随机数字表法将其分为对照组和观察组,每组各33例。对照组实施常规... 目的探讨目标策略模式下知信行干预对脑出血患者心理状态及生活质量的影响。方法选择2021年1月至12月在赣州市人民医院神经科接受救治的66例脑出血患者为研究对象,依据随机数字表法将其分为对照组和观察组,每组各33例。对照组实施常规干预和护理,观察组在此基础上采用基于目标策略模式下知信行干预。比较两组患者的住院时间,干预前后的焦虑抑郁、独立生活能力及生活质量。结果干预前,两组患者的焦虑、抑郁评分比较,差异无统计学意义(P>0.05);干预后,两组患者的焦虑、抑郁评分低于干预前,且观察组焦虑、抑郁评分低于对照组,差异有统计学意义(P<0.05)。观察组的住院时间短于对照组,差异有统计学意义(P<0.05)。干预前,两组患者的独立生活能力各维度评分比较,差异无统计学意义(P>0.05);干预后,两组患者的独立生活能力各维度评分高于干预前,且观察组评分高于对照组,差异有统计学意义(P<0.05)。干预前,两组患者的生活质量各维度评分比较,差异无统计学意义(P>0.05);干预后,两组患者的生活质量各维度评分高于干预前,且观察组评分高于对照组,差异有统计学意义(P<0.05)。结论基于目标策略模式下知信行干预应用于脑出血患者中,可有效缓解患者的焦虑抑郁,缩短住院时间,改善独立生活能力,提高生活质量。 展开更多
关键词 目标策略模式 知信行 脑出血 心理状态 生活质量
下载PDF
美国《海洋气候行动计划》概述与特征及其对中国的启示
15
作者 王文涛 叶旺旺 +1 位作者 王金平 王浩 《全球科技经济瞭望》 2023年第8期69-76,共8页
2023年3月,美国发布《海洋气候行动计划》,提出了“三大目标”和“8项优先行动”。该计划是美国在联邦政府层面推出的首个多部门联合参与的海洋气候行动计划,旨在通过一系列与海洋相关的清单措施应对气候危机和遏制对沿海社区、海洋资... 2023年3月,美国发布《海洋气候行动计划》,提出了“三大目标”和“8项优先行动”。该计划是美国在联邦政府层面推出的首个多部门联合参与的海洋气候行动计划,旨在通过一系列与海洋相关的清单措施应对气候危机和遏制对沿海社区、海洋资源和可持续海洋经济造成的危害,体现了美国长期以来对海洋—气候关系的重视。通过对计划的内容和特点进行分析,在科学研究、工作机制、行动方式和国际合作等方面提出了相关政策建议,为助力中国“双碳”目标的实现提供参考。 展开更多
关键词 美国 气候变化 海洋气候行动计划 蓝碳
下载PDF
问题解决任务中行动序列的二分类建模:单/两参数行动序列模型 被引量:1
16
作者 付颜斌 陈琦鹏 詹沛达 《心理学报》 CSCD 北大核心 2023年第8期1383-1396,I0007-I0014,共22页
行动序列作为一种典型的过程数据,可反映被试解决问题的详细步骤。鉴于行动或状态转移可区分正误,本文基于二分类Logistic建模提出两个复杂度相对较低的行动序列模型——单/两参数行动序列模型(1P-/2P-ASM);两者差异在于是否允许自由估... 行动序列作为一种典型的过程数据,可反映被试解决问题的详细步骤。鉴于行动或状态转移可区分正误,本文基于二分类Logistic建模提出两个复杂度相对较低的行动序列模型——单/两参数行动序列模型(1P-/2P-ASM);两者差异在于是否允许自由估计问题状态的区分度。通过实证研究和模拟研究对比探究两个新模型与基于多分类Logistic建模的序列作答模型(SRM)的表现。研究结果主要发现:(1)两个ASM能够获得与SRM几乎一致的问题解决能力估计值;(2)两个ASM的计算耗时明显低于SRM的;(3)2P-ASM比1P-ASM的综合表现更优。总之,两个模型复杂度相对低的ASM均能够实现对行动序列的有效分析,有益于行动序列数据分析的落地。 展开更多
关键词 过程数据 行动序列 问题状态转换 行动序列模型 项目反应理论
下载PDF
基于元动作与马尔可夫链的再制造机床全状态可靠性研究
17
作者 马继召 李卫民 肖永茂 《机床与液压》 北大核心 2023年第12期226-232,共7页
确保再制造机床的可靠性是提升客户对再制造机床认可的有效途径。基于此,提出一种基于元动作与马尔可夫链的再制造机床全状态可靠性分析方法。引入元动作单元分解法,从零件级进行分析,建立再制造机床FMA树。针对再制造机床元动作单元系... 确保再制造机床的可靠性是提升客户对再制造机床认可的有效途径。基于此,提出一种基于元动作与马尔可夫链的再制造机床全状态可靠性分析方法。引入元动作单元分解法,从零件级进行分析,建立再制造机床FMA树。针对再制造机床元动作单元系统的特点,对其进行全状态建模,将再制造机床运行过程分为元动作单元正常状态和故障状态,引入马尔可夫决策过程,将元动作单元状态和马尔可夫决策过程结合,建立再制造机床全状态模型,用解析法求解模型,并对可靠性进行评估。最后,以再制造机床数控转台为例进行分析,验证了该方法的有效性和可行性。 展开更多
关键词 再制造机床 元动作单元 马尔可夫链 全状态 可靠性分析
下载PDF
基于循环神经网络的人体运动模型的隐状态初始化方法 被引量:1
18
作者 李南帆 司文文 +3 位作者 杜思远 王志勇 钟重阳 夏时洪 《计算机应用》 CSCD 北大核心 2023年第3期723-727,共5页
针对基于循环神经网络(RNN)的人体运动合成方法存在首帧跳变,进而影响生成运动的质量的问题,提出一种带有隐状态初始化的人体运动合成方法,将初始隐状态作为自变量,利用神经网络的目标函数作为优化目标,并使用梯度下降的方法进行优化求... 针对基于循环神经网络(RNN)的人体运动合成方法存在首帧跳变,进而影响生成运动的质量的问题,提出一种带有隐状态初始化的人体运动合成方法,将初始隐状态作为自变量,利用神经网络的目标函数作为优化目标,并使用梯度下降的方法进行优化求解,以得到一个合适的初始隐状态。相较于编码器-循环-解码器(ERD)、残差门控循环单元(RGRU)模型,所提方法在首帧的预测误差分别减小63.51%和6.90%,10帧的总误差分别减小50.00%和4.89%。实验结果表明,该方法无论是运动合成质量还是运动预测精度都优于不进行初始隐状态估计的方法;它通过准确估计基于RNN的人体运动模型的首帧隐状态可提升运动合成的质量,并且为实时安全监测中的动作识别模型提供可靠的数据支持。 展开更多
关键词 人体运动合成 循环神经网络 隐状态估计 动作识别 运动模型
下载PDF
基于SARSA学习的跳频系统智能抗干扰决策算法
19
作者 陈一波 赵知劲 《现代电子技术》 2023年第1期31-35,共5页
为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界... 为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。 展开更多
关键词 复杂电磁环境 跳频系统 抗干扰 SARSA学习 置信度上界 优先遍历 状态动作空间 探索与利用
下载PDF
公共行动的中国生成——基于国家—社会结构理论的阐释 被引量:2
20
作者 陈付龙 《江西师范大学学报(哲学社会科学版)》 北大核心 2023年第4期43-51,共9页
在马克思“国家-社会”动态平衡结构中探寻公共行动生成的中国密匙,既是研究该论题的一个学术观察点,也是需要深化的一个学术生长点。考察公共行动的中国生成,国家与社会的互构谐变、自我与他者的文化互动、权力与权利的互构生成,构成... 在马克思“国家-社会”动态平衡结构中探寻公共行动生成的中国密匙,既是研究该论题的一个学术观察点,也是需要深化的一个学术生长点。考察公共行动的中国生成,国家与社会的互构谐变、自我与他者的文化互动、权力与权利的互构生成,构成公共行动生成的中国要素;公共行动生成的虚妄与式微、萌醒与隐忧、传承与再造,展现公共行动生成的中国历程;拓展公共领域、培育公共精神、彰显价值正义,是推进公共行动生成所需要的空间正义、主体品质、文化引领,预设着公共行动生成的中国进路。 展开更多
关键词 公共行动 中国生成 国家与社会
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部