期刊文献+
共找到957篇文章
< 1 2 48 >
每页显示 20 50 100
On Translation Strategies of C-E Translation of The Everlasting Regret from“Three Beauties”Principle
1
作者 郭林秀 张江 《西安翻译学院论坛》 2020年第3期69-74,共6页
Tang poetry can be described as the treasure of Chinese culture.For a long time,both domestic and foreign scholars have devoted themselves to disseminating the immortal Chinese cultural heritage and have made great co... Tang poetry can be described as the treasure of Chinese culture.For a long time,both domestic and foreign scholars have devoted themselves to disseminating the immortal Chinese cultural heritage and have made great contributions to the translation of classical poetry.The Everlasting Regret is one of the excellent narrative poems in Chinese classical poetry.It is highly valued by many translators."Three Beauties" principle are the principles of po­etry translation proposed by Mr.Xu Yuanchong,in his work On Chinese Verse in English Rhyme.On the basis of the"Three Beauties" principle and translation version of Mr.Xu Yuanchong's The Everlasting Regret,this paper analyzes how to achieve the beauty in sense,sound and form in translation,aiming at providing some reference methods for the translation of Chinese classical poetry. 展开更多
关键词 Tang poetry The everlasting regret "Three Beauties"principle English translation
下载PDF
Everlasting Hope——Comments on the theme of Wuthering Heights
2
作者 綦小风 《黄冈师范学院学报》 2006年第B08期18-19,共2页
Wuthering Heights is an extraordinary novel of love and revenge.It describes the tragic love story of Catherine and Heathcliff and the happy ending of Cathy and Hareton’s love story.These two love stories are combine... Wuthering Heights is an extraordinary novel of love and revenge.It describes the tragic love story of Catherine and Heathcliff and the happy ending of Cathy and Hareton’s love story.These two love stories are combined together,from which Emily the writer discloses the motif of the novel is the everlasting hope to the reviving of humanity. 展开更多
关键词 Exploration of humanity the real theme everlasting hope
下载PDF
Rewi Alley's Everlasting Spirit
3
《China Today》 1997年第12期22-26,共3页
关键词 In Rewi Alley’s everlasting Spirit
下载PDF
Bayesian Set Estimation with Alternative Loss Functions: Optimality and Regret Analysis
4
作者 Fulvio De Santis Stefania Gubbiotti 《Open Journal of Statistics》 2023年第2期195-211,共17页
Decision-theoretic interval estimation requires the use of loss functions that, typically, take into account the size and the coverage of the sets. We here consider the class of monotone loss functions that, under qui... Decision-theoretic interval estimation requires the use of loss functions that, typically, take into account the size and the coverage of the sets. We here consider the class of monotone loss functions that, under quite general conditions, guarantee Bayesian optimality of highest posterior probability sets. We focus on three specific families of monotone losses, namely the linear, the exponential and the rational losses whose difference consists in the way the sizes of the sets are penalized. Within the standard yet important set-up of a normal model we propose: 1) an optimality analysis, to compare the solutions yielded by the alternative classes of losses;2) a regret analysis, to evaluate the additional loss of standard non-optimal intervals of fixed credibility. The article uses an application to a clinical trial as an illustrative example. 展开更多
关键词 Bayesian Inference Decision-Theoretic Approach Highest Posterior Density Sets Interval Estimation regret
下载PDF
Creating Everlasting Memories
5
作者 Li Xiaoyu 《ChinAfrica》 2017年第3期56-57,共2页
Bobuafrica encourages responsible travel and hopes that more Chinese can act as cultural ambassadors by communicating in depth with local Africans. This helps us get to know Africa better and vice versa.
关键词 Creating everlasting Memories
下载PDF
教学遗憾及其应对策略 被引量:1
6
作者 罗祖兵 赵力慧 《课程.教材.教法》 北大核心 2024年第2期71-79,共9页
教学遗憾是指教师在遵守教学规律的前提下,竭尽所能地开展教学活动后仍发现现实教学与理想教学之间存在差距而引发的一种后悔感,以及渴望进一步优化教学的迫切感。它不等于且不包含教学失误。教学失误是教学科学层面上的一个事实性存在... 教学遗憾是指教师在遵守教学规律的前提下,竭尽所能地开展教学活动后仍发现现实教学与理想教学之间存在差距而引发的一种后悔感,以及渴望进一步优化教学的迫切感。它不等于且不包含教学失误。教学失误是教学科学层面上的一个事实性存在,表明教师的教学存在问题,而教学遗憾则是教师教学艺术层面上的一种心理状态,表明教师在追求卓越教学。教学遗憾若为教师所意识与所重视,便能助力教师的深度发展,促成美好的教学生活,达致教学的卓越境界。其生成的前提是理想教学的无限性,生成的基础是教学过程的开放性,生成的关键是教师发展的蝶化性。教学遗憾虽具有重要价值,但教师不能故意制造遗憾,也不能有意回避遗憾。为更好地发挥教学遗憾的价值,教师应转变教学观念,理性地认识遗憾;释放教学想象,敏锐地发现遗憾;注重教学反思,深入地分析遗憾;善于教学探索,坚守学生立场、把守学习立场、恪守学科立场,持续地转化遗憾。 展开更多
关键词 教学遗憾 教学失误 教学艺术 理想教学 现实教学
下载PDF
矿工安全行为的群体演化和干预策略研究:基于多智能体仿真分析
7
作者 王新平 申宇 +2 位作者 苏畅 孙林辉 袁晓芳 《金属矿山》 CAS 北大核心 2024年第8期197-205,共9页
随着我国多数矿山企业正实现从“系统智能化”向“智能系统化”的跨越,矿工群体逐渐呈现知识化、年轻化的特征。为推进矿工安全行为管理,结合后悔理论构建了包含情绪反应的矿工安全行为决策模型,并制定了考虑矿工风险偏好异质性的互动规... 随着我国多数矿山企业正实现从“系统智能化”向“智能系统化”的跨越,矿工群体逐渐呈现知识化、年轻化的特征。为推进矿工安全行为管理,结合后悔理论构建了包含情绪反应的矿工安全行为决策模型,并制定了考虑矿工风险偏好异质性的互动规则,通过多智能体仿真的方法,探讨了正念和警示两类事前干预策略下矿工群体安全行为的演化路径。结果表明,仅靠处罚这一事后控制手段并不能有效促进矿工选择安全行为;在事前干预策略中,正念策略比警示策略更有利于促进矿工的安全行为,且这两种策略具有协同效应。此外,矿工之间的互动强度会影响安全行为决策,连结的邻居数量越多,邻居更新越快,矿工会越倾向选择不安全行为。最后,在陕西榆林某矿山企业开展了现场实验,实证检验了正念策略和警示策略对矿工安全行为的激励作用。 展开更多
关键词 矿工安全行为 群体演化 后悔理论 多智能体仿真 ANYLOGIC
下载PDF
基于多异构属性和不完全权重信息的案例检索方法
8
作者 张恺 黄金凤 《佛山科学技术学院学报(自然科学版)》 CAS 2024年第1期7-18,共12页
针对多异构属性和不完全权重信息的案例检索问题,提出了一种基于后悔理论的案例检索方法。通过定义基于属性相似度和后悔理论(RT)的感知效用函数,并基于线性规划技术的多维偏好分析(LINMAP),构建了确定属性权重的数学规划模型。在此基础... 针对多异构属性和不完全权重信息的案例检索问题,提出了一种基于后悔理论的案例检索方法。通过定义基于属性相似度和后悔理论(RT)的感知效用函数,并基于线性规划技术的多维偏好分析(LINMAP),构建了确定属性权重的数学规划模型。在此基础上,计算感知效用,并确定一组类似的历史案例,计算相似历史案例的综合效用,得到相似历史案例的排序,从而获得最适合的历史案例。最后,以瓦斯爆炸案例验证该方法的可行性与有效性。结果表明:该方法可以在计算案例相似性和综合效用时提供更客观、准确的结果。 展开更多
关键词 案例检索 后悔理论 多异构属性 不完全权重信息 数学规划
下载PDF
动量余弦相似度梯度优化图卷积神经网络
9
作者 闫建红 段运会 《计算机工程与应用》 CSCD 北大核心 2024年第14期133-143,共11页
传统梯度下降算法仅对历史梯度进行指数加权累加,没有利用梯度的局部变化,造成优化过程越过全局最优解,即使收敛到最优解也会在最优解附近震荡,其训练图卷积神经网络会造成收敛速度慢、测试准确度低。利用相邻两次梯度的余弦相似度,动... 传统梯度下降算法仅对历史梯度进行指数加权累加,没有利用梯度的局部变化,造成优化过程越过全局最优解,即使收敛到最优解也会在最优解附近震荡,其训练图卷积神经网络会造成收敛速度慢、测试准确度低。利用相邻两次梯度的余弦相似度,动态调整学习率,提出余弦相似度梯度下降(SimGrad)算法。为进一步提升图卷积神经网络训练的收敛速度和测试准确度,减少震荡,结合动量思想提出动量余弦相似度梯度下降(NSimGrad)算法。通过收敛性分析,证明SimGrad算法、NSimGrad算法都具有O(√T)的遗憾界。在构建的三个非凸函数进行测试,并结合图卷积神经网络在四个数据集上进行实验,结果表明SimGrad算法保证了图卷积神经网络的收敛性,NSimGrad算法进一步提高图卷积神经网络训练的收敛速度和测试准确度,SimGrad、NSimGrad算法相较于Adam、Nadam具有更好的全局收敛性和优化能力。 展开更多
关键词 梯度下降类算法 余弦相似度 图卷积神经网络 遗憾界 全局收敛性
下载PDF
考虑鲁棒成本与绝对后悔的最短路径问题研究
10
作者 周和平 李文杰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期91-98,共8页
为克服鲁棒偏差方法在处理区间路网时所求鲁棒最短路径的保守性问题,通过分析鲁棒成本的定义以及鲁棒最短路径过于保守的原因,结合算例分析提出了绝对后悔值的概念,并以鲁棒成本和绝对后悔值为目标函数建立了区间路网的多目标最短路径模... 为克服鲁棒偏差方法在处理区间路网时所求鲁棒最短路径的保守性问题,通过分析鲁棒成本的定义以及鲁棒最短路径过于保守的原因,结合算例分析提出了绝对后悔值的概念,并以鲁棒成本和绝对后悔值为目标函数建立了区间路网的多目标最短路径模型;根据最短路径模型的特点设计了分离路径决策变量与连续变量的Benders分解算法,同时基于传统有效路径的判断依据重新定义了符合该最短路径模型的有效路径,并在分解后的主问题模型中引入了有效路径约束以加快算法收敛速度;利用MATLAB生成了一个包含29个节点、70条双向通行路段的区间路网对模型与算法进行仿真测试。结果表明:考虑鲁棒成本和绝对后悔值的最短路径模型能在区间路网中找到不保守,且同时兼具鲁棒性的最短路径,能够有效克服鲁棒偏差方法的缺陷。 展开更多
关键词 交通运输工程 鲁棒成本 绝对后悔 最短路径问题 Benders分解算法
下载PDF
考虑策略型消费者后悔行为的易逝品零售商最优库存策略 被引量:1
11
作者 王桦 白春光 +1 位作者 张冲 石纯来 《管理工程学报》 CSCD 北大核心 2024年第4期251-270,共20页
易逝品零售商降价销售时,策略型消费者往往会经历高价后悔和缺货后悔,这两种后悔行为均会降低他们的购买效用,从而影响零售商库存决策和利润。因此,本文分别研究了价格外生和内生两种情形下高价后悔和缺货后悔对策略型消费者行为以及零... 易逝品零售商降价销售时,策略型消费者往往会经历高价后悔和缺货后悔,这两种后悔行为均会降低他们的购买效用,从而影响零售商库存决策和利润。因此,本文分别研究了价格外生和内生两种情形下高价后悔和缺货后悔对策略型消费者行为以及零售商库存决策和利润的影响。研究表明,对于高利润产品,零售商应实施瞄准短视型消费者(target myopic consumers,TMC)的策略。相反,对于低利润产品,零售商应实施瞄准短视和策略型消费者(target both myopic and strategic consumers,TBC)的策略。此外,随着高价(缺货)后悔水平的增加,策略型消费者原来认为是低(高)利润的产品,现在可能认为是高(低)利润产品,因此零售商最优策略可能会相应地改变。其次,对于低利润产品,当高价(缺货)后悔显著时,后悔行为对零售商产生负(正)影响,且高价后悔和缺货后悔呈现相反的作用;对于高利润产品,后悔行为不对零售商造成影响。再次,对于低利润产品,高价后悔加剧了(缺货后悔缓解了)策略型消费者行为的负影响;对于高利润产品,后悔行为不影响策略型消费者行为的负影响。最后,当零售商拥有全价决策权时,零售商总是能够利用决策全价的优势来消除高价后悔的负影响或发挥缺货后悔的正影响。 展开更多
关键词 高价后悔 缺货后悔 策略型消费者行为 易逝品零售商 库存决策
下载PDF
癌症病人决策后悔研究进展 被引量:1
12
作者 蒋梦蝶 王璐 +2 位作者 刘思雨 常陆 王梦莹 《全科护理》 2024年第2期261-266,共6页
对癌症病人决策后悔概念、发生现状、不良结局、影响因素、评估工具、干预措施进行综述,旨在为癌症病人决策后悔的管理及进一步研究提供参考。
关键词 癌症病人 决策后悔 综述
下载PDF
非完美信息博弈综述:对抗求解方法与对比分析
13
作者 余超 刘宗凯 +2 位作者 胡超豪 黄凯奇 张俊格 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2211-2246,共36页
当前,人工智能成为经济发展的新引擎,是新一轮产业变革的核心驱动力.结合人工智能与博弈论形成的新兴研究领域“博弈智能”吸引了越来越多学者的研究兴趣,并在现实生活中得到了广泛应用.作为一类典型的博弈智能,非完美信息博弈通过建模... 当前,人工智能成为经济发展的新引擎,是新一轮产业变革的核心驱动力.结合人工智能与博弈论形成的新兴研究领域“博弈智能”吸引了越来越多学者的研究兴趣,并在现实生活中得到了广泛应用.作为一类典型的博弈智能,非完美信息博弈通过建模多智能体在私有信息下的博弈行为,能够刻画相较完美信息博弈更广泛的决策过程,在现实世界中具有广泛应用,例如金融贸易、商业谈判、军事对抗等.近年来,非完美信息博弈求解研究取得了突破性进展,涌现出以遗憾最小化(Regret Minimization)和最佳响应(Best Response)为核心技术的两大类离线求解方法.前者通过反省智能体过往决策以使自身策略向均衡点改进,成功解决了以德州扑克为代表的经典非完美信息博弈.后者通过特定应对方式针对对手决策以使自身策略向均衡点改进,在例如星际争霸、DOTA等大型实时战略游戏AI训练中发挥着关键作用.此外,一系列在线求解方法能够进一步实时优化离线算法求解所得的蓝图策略,使其在实时对局中得到进一步改进,成为求解非完美信息博弈的关键技术.本文将从非完美信息博弈的概念和特点切入,全面介绍这三类方法的基本原理、发展脉络和改进技巧,深入对比不同方法间的优缺点并展望未来研究方向.希望通过对非完美信息博弈求解这一研究领域的全方位细致梳理,能够进一步推动博弈智能技术向前发展,为迈向通用人工智能赋能. 展开更多
关键词 非完美信息博弈 遗憾最小化 最佳响应 在线求解 强化学习
下载PDF
共享型虚拟电厂风险调度与电能共享机制
14
作者 马雨彤 张春雁 +3 位作者 窦真兰 王玲玲 蒋传文 王素 《电力系统自动化》 EI CSCD 北大核心 2024年第18期104-114,共11页
随着需求侧资源开发力度持续加大和电力市场机制不断完善,需求侧分散的灵活性资源将在电力调度与交易中扮演更重要的角色。虚拟电厂的建设为需求侧资源管理和利用提供了新思路,同时,电能共享因其能够促进区域电力平衡和提升电力系统灵... 随着需求侧资源开发力度持续加大和电力市场机制不断完善,需求侧分散的灵活性资源将在电力调度与交易中扮演更重要的角色。虚拟电厂的建设为需求侧资源管理和利用提供了新思路,同时,电能共享因其能够促进区域电力平衡和提升电力系统灵活性而备受关注。为此,文中对基于虚拟电厂的电能共享交易机制进行了研究。首先,提出了共享型虚拟电厂概念,并建立其与新能源场站的电能共享框架;其次,考虑新能源出力不确定性,基于最小-最大后悔值法建立共享联盟风险调度模型;然后,基于一致性理论推导出共享电能价格机制;最后,基于改进的IEEE 33节点系统进行算例分析。结果表明,所提调度方法与交易机制能够提高用户侧资源利用效率、促进新能源消纳与电网区域供需平衡。 展开更多
关键词 电能共享 虚拟电厂 最小-最大后悔值法 一致性算法
下载PDF
基于OWA算子赋权和后悔理论的城市水资源脆弱性评价
15
作者 王利艳 黄渝桂 张楠 《人民黄河》 CAS 北大核心 2024年第1期61-67,共7页
为解决城市水资源脆弱性评价方法主观性过强、未考虑自然人有限理性和后悔规避心理行为特征造成评价结果失真的问题,提出基于OWA(有序加权平均)算子赋权和后悔理论的城市水资源脆弱性评价方法。运用DPSIR模型,从驱动力、压力、状态、影... 为解决城市水资源脆弱性评价方法主观性过强、未考虑自然人有限理性和后悔规避心理行为特征造成评价结果失真的问题,提出基于OWA(有序加权平均)算子赋权和后悔理论的城市水资源脆弱性评价方法。运用DPSIR模型,从驱动力、压力、状态、影响、响应5个方面构建29个评价指标;采用OWA算子对决策数据重新排序,充分考虑数据位置和大小,弱化极端决策数据对权重的负面作用;选择后悔理论中决策数据效用值和理想效用值间的差异性作为评判专家主观性的依据,实现决策主观数据的客观化,从而提升评价结果的客观性。最后对郑州市2017—2022年水资源脆弱性进行评价,并将评价结果与AHP(层次分析法)和后悔理论、OWA算子和模糊数学的评估结果对比分析。结果表明:基于OWA算子赋权和后悔理论的城市水资源脆弱性评价方法评价结果与其他方法评价结果基本一致,均认为郑州市水资源重度脆弱,但该方法评价结果相对误差更小,更贴近实际情况,可更好地用于城市水资源脆弱性评价。 展开更多
关键词 城市水资源 脆弱性评价 OWA算子 后悔理论 郑州市
下载PDF
包含非数值型属性的交互式遗憾最小化查询
16
作者 王美静 郑吉平 《小型微型计算机系统》 CSCD 北大核心 2024年第3期513-520,共8页
近年来,遗憾最小化查询作为多准则决策的重要工具之一,逐渐成为数据查询的研究热点.遗憾最小化查询中,通过与用户进行交互,不断地学习用户的偏好,可以有效帮助降低查询的遗憾率.然而,已有的研究仅针对具有数值型属性的数据定义遗憾率并... 近年来,遗憾最小化查询作为多准则决策的重要工具之一,逐渐成为数据查询的研究热点.遗憾最小化查询中,通过与用户进行交互,不断地学习用户的偏好,可以有效帮助降低查询的遗憾率.然而,已有的研究仅针对具有数值型属性的数据定义遗憾率并据此进行遗憾最小化查询,当面对包含非数值型属性的数据时,这些方法不再适用.本文提出的遗憾率定义针对包含非数值型属性的数据,并给出新的交互式遗憾最小化查询问题的定义.在此基础上,采用“支配”的概念提出用于预处理的skyline删减算法,利用偏好矩阵帮助学习用户偏好,并提出用于解决交互式遗憾最小化的算法MECR_QS.最后,实验结果表明MECR_QS算法能有效处理包含非数值型属性的交互式遗憾最小化查询. 展开更多
关键词 遗憾最小化查询 交互 非数值型属性 skyline筛选
下载PDF
基于遗憾值决策分析的排水管网改造方案评估方法研究
17
作者 谢家强 廖振良 +3 位作者 尹炜 颜莹莹 王万琼 彭寿海 《给水排水》 CSCD 北大核心 2024年第7期142-148,共7页
城市排水管网优化改造是当前我国解决城市水环境污染问题的重要途径之一。基于遗憾值决策分析理论提出了排水管网改造方案优化评估方法,在获取排水管网数据准确值受限时,可从改造方案的遗憾值角度量化评估排水管网改造方案的优劣性,并... 城市排水管网优化改造是当前我国解决城市水环境污染问题的重要途径之一。基于遗憾值决策分析理论提出了排水管网改造方案优化评估方法,在获取排水管网数据准确值受限时,可从改造方案的遗憾值角度量化评估排水管网改造方案的优劣性,并以典型混合型体制排水系统为例,全生命周期优化评估管网改造方案,结果表明截流式合流制相比于雨污分流与调蓄池措施更具有优越性。研究成果不仅为排水管网改造方案优化评估提供了创新思路,而且进一步丰富了不同排水体制优劣性问题的理论研究。 展开更多
关键词 遗憾值决策分析 排水管网 评估方法
下载PDF
多智能体博弈学习研究进展 被引量:1
18
作者 罗俊仁 张万鹏 +2 位作者 苏炯铭 袁唯淋 陈璟 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1628-1655,共28页
随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文... 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法。其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 展开更多
关键词 博弈学习 多智能体学习 元博弈 在线无悔学习
下载PDF
基于公平视角的交叉效率集结方法
19
作者 张兴贤 左文进 +2 位作者 王应明 王盼盼 王仁杰 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2024年第5期599-610,共12页
针对数据包络分析(DEA)交叉效率的集结问题,基于公平视角提出了一种考虑公平感知的后悔交叉效率集结方法。用后悔理论描述决策者的后悔厌恶心理,构建后悔-欣喜矩阵;采用区间型交叉效率模型计算后悔公平感知效用;用构建的交叉效率集结权... 针对数据包络分析(DEA)交叉效率的集结问题,基于公平视角提出了一种考虑公平感知的后悔交叉效率集结方法。用后悔理论描述决策者的后悔厌恶心理,构建后悔-欣喜矩阵;采用区间型交叉效率模型计算后悔公平感知效用;用构建的交叉效率集结权重分配模型,计算考虑公平感知的后悔区间交叉效率;通过引入反映决策者心理偏好的参数,综合后悔区间交叉效率的下限和上限形成综合感知效率。最后,通过算例验证了方法的有效性和合理性。 展开更多
关键词 数据包络分析 交叉效率评估 公平视角 后悔理论
下载PDF
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
20
作者 张明悦 金芝 刘坤 《软件学报》 EI CSCD 北大核心 2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的... 合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升. 展开更多
关键词 多智能体强化学习 虚拟遗憾最小化 自博弈 动态决策
下载PDF
上一页 1 2 48 下一页 到第
使用帮助 返回顶部