期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
The Cooperative Multi-agent Learning with Random Reward Values
1
作者 张化祥 黄上腾 《Journal of Shanghai Jiaotong university(Science)》 EI 2005年第2期147-150,共4页
This paper investigated how to learn the optimal action policies in cooperative multi-agent systems if the agents’ rewards are random variables, and proposed a general two-stage learning algorithm for cooperative mul... This paper investigated how to learn the optimal action policies in cooperative multi-agent systems if the agents’ rewards are random variables, and proposed a general two-stage learning algorithm for cooperative multi-(agent) decision processes. The algorithm first calculates the averaged immediate rewards, and considers these learned rewards as the agents’ immediate action rewards to learn the optimal action policies. It is proved that the learning algorithm can find the optimal policies in stochastic environment. Extending the algorithm to stochastic Markov decision processes was also discussed. 展开更多
关键词 学习加强 随机报答 多代理 马尔可夫决策
下载PDF
基于强化学习方法的RRT全局路径规划算法
2
作者 罗国攀 张国良 杨敏豪 《四川轻化工大学学报(自然科学版)》 CAS 2024年第2期57-63,共7页
针对强化学习运用于局部路径规划时目标方向不明确易陷入局部最优的情况以及快速探索随机树(RRT)算法规划路径复杂、冗余点多等问题,提出一种融合RRT算法与强化学习(RL)思想的全局路径规划算法。首先,通过RRT全局路径规划算法弱化、减... 针对强化学习运用于局部路径规划时目标方向不明确易陷入局部最优的情况以及快速探索随机树(RRT)算法规划路径复杂、冗余点多等问题,提出一种融合RRT算法与强化学习(RL)思想的全局路径规划算法。首先,通过RRT全局路径规划算法弱化、减少强化学习算法易于陷入局部最优的问题,并且在一定程度上可以减少规划迭代时间;其次,采用强化学习算法的最大回报奖励机制强化RRT算法在路径规划过程中选择子节点时的目的性,避免过多随机点。实验结果表明,所提算法有效弱化了局部最优所带来的绕远影响,路径长度缩短33.3,凹、凸地形有效节点占比分别提高36.0%和39.6%,侧面反映冗余点数量减少,验证了该算法的可行性。 展开更多
关键词 强化学习 快速探索随机树 回报奖励机制 全局路径规划
下载PDF
基于竞争协调机制的广义随机制造系统模型 被引量:1
3
作者 杨建国 李蓓智 《中国纺织大学学报》 CSCD 1998年第2期80-84,共5页
提出了一种新的面向客户订单的制造系统模型——广义随机制造系统GRMS(Generated Random Manufacturing System)模型。通过采用奖惩机制、竞争机制和协调分布式控制,改善系统的敏捷性。文章阐述了广义随机制造系统的概念,分析了系统的... 提出了一种新的面向客户订单的制造系统模型——广义随机制造系统GRMS(Generated Random Manufacturing System)模型。通过采用奖惩机制、竞争机制和协调分布式控制,改善系统的敏捷性。文章阐述了广义随机制造系统的概念,分析了系统的组成结构和基本原理,讨论了系统的运行机制及其意义。 展开更多
关键词 自动化 竞争协调 敏捷制造 随机制造系统 CRMS
下载PDF
基于奖惩双重契约模型的随机供应链协调机制
4
作者 姚秋月 李军 《五邑大学学报(自然科学版)》 CAS 2013年第1期24-31,共8页
在单一奖励和惩罚契约的基础上,以奖罚系数和幅度等4个协调因子为参数,提出了奖惩结合的双重契约模型,分析了奖惩双重契约在随机供应链协调中的作用,探讨了由单一生产商和两个零售商构成的随机供应链的协调机制问题.结果表明:合适协调... 在单一奖励和惩罚契约的基础上,以奖罚系数和幅度等4个协调因子为参数,提出了奖惩结合的双重契约模型,分析了奖惩双重契约在随机供应链协调中的作用,探讨了由单一生产商和两个零售商构成的随机供应链的协调机制问题.结果表明:合适协调因子数值的设置将使供应链的整体利润大幅提升,从而起到改善供应链绩效的作用. 展开更多
关键词 随机供应链 奖惩双重契约 供应链管理
下载PDF
“随手拍”交通违法有奖举报研究 被引量:1
5
作者 丁成 侯文杰 《辽宁警察学院学报》 2021年第1期81-87,共7页
“随手拍”对无交警执法区域或无电子监控路段的交通违法行为的“取证难”问题,提供了一种解决方案。分析“随手拍”交通违法有奖举报的生成机理,开展有奖举报的动因及可行性,从需求角度构建了“随手拍”有奖举报平台结构框架及功能模... “随手拍”对无交警执法区域或无电子监控路段的交通违法行为的“取证难”问题,提供了一种解决方案。分析“随手拍”交通违法有奖举报的生成机理,开展有奖举报的动因及可行性,从需求角度构建了“随手拍”有奖举报平台结构框架及功能模块。以安徽高速公路有奖举报实践为例,介绍举报平台的建设方案及有奖举报开展过程中取得的一些经验及对应若干成效,并针对实际遇到“违法举报持怀疑态度”和“职业举报人”等问题提出了完善公众取证体制、培养理性举报的土壤、做好举报的宣传工作等建议。 展开更多
关键词 随手拍 众包 交通违法 有奖举报
下载PDF
同分布强化学习优化多决策树及其在非平衡数据集中的应用 被引量:2
6
作者 焦江丽 张雪英 +1 位作者 李凤莲 牛壮 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第5期1112-1118,共7页
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单... 针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。 展开更多
关键词 非平衡数据集 多决策树 累积回报机制属性选择策略 同分布随机抽样 强化学习
下载PDF
基于随机系数增长模型的状态维修与EPQ联合优化 被引量:10
7
作者 刘学娟 冯志鹏 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2019年第1期251-258,共8页
针对生产和维修计划共享生产设备的问题,建立了经济生产批量和设备状态监测维修的联合优化模型.运用随机系数增长模型描述设备的退化状态,每完成一个生产批量就对设备进行状态监测.监测到的设备状态由设备的实际状态和监测误差构成,当... 针对生产和维修计划共享生产设备的问题,建立了经济生产批量和设备状态监测维修的联合优化模型.运用随机系数增长模型描述设备的退化状态,每完成一个生产批量就对设备进行状态监测.监测到的设备状态由设备的实际状态和监测误差构成,当监测状态达到或超过预防性维修阈值时,需要对设备进行预防性维修并更新,当实际状态达到故障阈值时,设备故障停机,需对设备进行故障维修并更新.基于两种更新情况,建立了更新周期内的费用和周期长度模型,并进一步运用更新回报定理建立了单位时间期望费用模型,通过对模型进行优化,可得到预防性更新状态阈值和每个批量的生产时间两个决策变量的最优取值.最后,通过国内某钢厂轧钢设备的数据资料对模型进行了数值分析,分析结果和实际情况相符合. 展开更多
关键词 状态监测维修 经济生产批量 随机系数增长模型 更新回报定理
原文传递
基于后评估的科技成果评价导向模拟分析研究 被引量:1
8
作者 赵宇 王晶华 +5 位作者 黄思明 陈晰 杨国梁 陈伟 袁莉莉 郭光 《中国管理科学》 CSSCI 北大核心 2014年第S1期90-94,共5页
本文从国内外项目后评估发展现状及评价方法入手,在总结专家学者现有研究方法的基础上,对后评估的理论和方法进行了对比分析。基于此,本文设计出了一种基于权重和方法组合的评价导向随机模拟算法,结合主成分分析(PCA)和逼近理想解排序(T... 本文从国内外项目后评估发展现状及评价方法入手,在总结专家学者现有研究方法的基础上,对后评估的理论和方法进行了对比分析。基于此,本文设计出了一种基于权重和方法组合的评价导向随机模拟算法,结合主成分分析(PCA)和逼近理想解排序(TOPSIS)两种评价方法,将二者的评估结果通过设置权重进行加权综合。并以某大型国有企业参评国家技术发明奖为例,运用该模拟算法得到各个评价指标的权重值,通过分析指标权重的相对大小,对未来申报国家技术发明奖的项目提供了可供参考的改进方向。本文的随机模拟算法能够很好的解决原始数据单一、样本较少的弊端,挖掘出了评价的导向性指标。随着后续研究的深入,研究样本的丰富,评价方法集合的拓展,指标体系的完善和新技术的引进,利用该模拟算法对权重值不断调整,可使系统评价的准确性不断提升。 展开更多
关键词 科技奖励 后评估 评价导向 随机模拟
原文传递
Sugeno测度空间上的模糊更新过程 被引量:1
9
作者 张春琴 李俊华 《模糊系统与数学》 CSCD 北大核心 2016年第6期79-86,共8页
研究了随机更新过程在Sugeno测度空间上的推广这一问题。基于Sugeno测度理论,在模糊环境下讨论了关于独立时间间距的更新过程;证明了一些关于模糊更新变量的极限理论;提出并证明了模糊基本更新定理;研究了更新报酬过程并给出了相关理论... 研究了随机更新过程在Sugeno测度空间上的推广这一问题。基于Sugeno测度理论,在模糊环境下讨论了关于独立时间间距的更新过程;证明了一些关于模糊更新变量的极限理论;提出并证明了模糊基本更新定理;研究了更新报酬过程并给出了相关理论的证明。这一工作把经典的随机更新过程的相应理论推广到了Sugeno测度空间上,扩大了随机更新过程的研究范围和应用领域。 展开更多
关键词 Sugeno测度 模糊更新过程 报酬过程 依Sugeno测度收敛 gλ-随机变量
原文传递
考虑随机抽奖产品预售决策研究
10
作者 彭良军 《数学的实践与认识》 北大核心 2020年第23期15-22,共8页
由于抽奖促销的结构和内容灵活性很强,随着网络技术的发展,与其它促销手段的联合也更加普遍.市场竞争加剧使零售商已不再局限于单一的预售策略,开始对预售策略的联合进行不断创新,其中预售与抽奖联合策略应用较为广泛.构建了预售模型及... 由于抽奖促销的结构和内容灵活性很强,随着网络技术的发展,与其它促销手段的联合也更加普遍.市场竞争加剧使零售商已不再局限于单一的预售策略,开始对预售策略的联合进行不断创新,其中预售与抽奖联合策略应用较为广泛.构建了预售模型及消费者参与抽奖的效用函数.研究发现,采取预售与抽奖联合策略时的消费者预购效用、零售商的预售价格都高于单一预售策略.同时研究结果也揭示了,有抽奖高预售价策略与无抽奖低预售价策略的关系.最为重要的是研究发现存在一个临界值,决定了零售商是否应该采取预售与抽奖联合策略.研究为零售商营销策略的决策提供了理论参考. 展开更多
关键词 报童问题 随机抽奖 产品预售 策略型消费者 产品估值
原文传递
基于策略型消费者的随机抽奖预售策略研究
11
作者 彭良军 《价格理论与实践》 北大核心 2020年第8期136-139,178,共5页
随着电子商务与平台经济的快速发展,线上线下零售商的竞争不断加剧,零售商对预售策略的实践进行了不断创新。其中,预售与随机抽奖联合策略在实践中应用最广泛。本文在单一预售模型的基础上,对策略型消费者中奖效用进行了建模与求解。研... 随着电子商务与平台经济的快速发展,线上线下零售商的竞争不断加剧,零售商对预售策略的实践进行了不断创新。其中,预售与随机抽奖联合策略在实践中应用最广泛。本文在单一预售模型的基础上,对策略型消费者中奖效用进行了建模与求解。研究结果表明:当预售期到达市场的消费者人数与现货销售期到达市场的消费者人数负相关时,零售商的最大期望利润存在。本文给出了零售商达到最优期望利润时消费者中奖效用的表达式,正相关时零售商最优期望利润随消费者中奖效用的增加而减少。研究结果还发现存在一组临界值决定零售商是否采用随机抽奖的预售策略。本文的研究将为零售商的决策提供有益的参考。 展开更多
关键词 随机抽奖 预售策略 策略型消费者 条件概率
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部