期刊文献+
共找到116篇文章
< 1 2 6 >
每页显示 20 50 100
Asymptotic Evaluations of the Stability Index for a Markov Control Process with the Expected Total Discounted Reward Criterion
1
作者 Jaime Eduardo Martínez-Sánchez 《American Journal of Operations Research》 2021年第1期62-85,共24页
In this work, for a control consumption-investment process with the discounted reward optimization criteria, a numerical estimate of the stability index is made. Using explicit formulas for the optimal stationary poli... In this work, for a control consumption-investment process with the discounted reward optimization criteria, a numerical estimate of the stability index is made. Using explicit formulas for the optimal stationary policies and for the value functions, the stability index is explicitly calculated and through statistical techniques its asymptotic behavior is investigated (using numerical experiments) when the discount coefficient approaches 1. The results obtained define the conditions under which an approximate optimal stationary policy can be used to control the original process. 展开更多
关键词 Control Consumption-Investment process Discrete-Time Markov Control process Expected Total Discounted reward Probabilistic Metrics Stability Index Estimation
下载PDF
Brain areas activated by uncertain reward-based decision-making in healthy volunteers 被引量:3
2
作者 Zongjun Guo Juan Chen +3 位作者 Shien Liu Yuhuan Li Bo Sun Zhenbo Gao 《Neural Regeneration Research》 SCIE CAS CSCD 2013年第35期3344-3352,共9页
Reward-based decision-making has been found to activate several brain areas, including the ven- trolateral prefronta~ lobe, orbitofrontal cortex, anterior cingulate cortex, ventral striatum, and mesolimbic dopaminergi... Reward-based decision-making has been found to activate several brain areas, including the ven- trolateral prefronta~ lobe, orbitofrontal cortex, anterior cingulate cortex, ventral striatum, and mesolimbic dopaminergic system. In this study, we observed brain areas activated under three de- grees of uncertainty in a reward-based decision-making task (certain, risky, and ambiguous). The tasks were presented using a brain function audiovisual stimulation system. We conducted brain scans of 15 healthy volunteers using a 3.0T magnetic resonance scanner. We used SPM8 to ana- lyze the location and intensity of activation during the reward-based decision-making task, with re- spect to the three conditions. We found that the orbitofrontal cortex was activated in the certain reward condition, while the prefrontal cortex, precentral gyrus, occipital visual cortex, inferior parietal lobe, cerebellar posterior lobe, middle temporal gyrus, inferior temporal gyrus, limbic lobe, and midbrain were activated during the 'risk' condition. The prefrontal cortex, temporal pole, inferior temporal gyrus, occipital visual cortex, and cerebellar posterior lobe were activated during am- biguous decision-making. The ventrolateral prefrontal lobe, frontal pole of the prefrontal lobe, orbi- tofrontal cortex, precentral gyrus, inferior temporal gyrus, fusiform gyrus, supramarginal gyrus, infe- rior parietal Iobule, and cerebellar posterior lobe exhibited greater activation in the 'risk' than in the 'certain' condition (P 〈 0.05). The frontal pole and dorsolateral region of the prefrontal lobe, as well as the cerebellar posterior lobe, showed significantly greater activation in the 'ambiguous' condition compared to the 'risk' condition (P 〈 0.05). The prefrontal lobe, occipital lobe, parietal lobe, temporal lobe, limbic lobe, midbrain, and posterior lobe of the cerebellum were activated during deci- sion-making about uncertain rewards. Thus, we observed different levels and regions of activation for different types of reward processing during decision-making. Specifically, when the degree of reward uncertainty increased, the number of activated brain areas increased, including greater ac- tivation of brain areas associated with loss. 展开更多
关键词 neural regeneration NEUROIMAGING DECISION-MAKING reward uncertainty cognitive processing functionalmagnetic resonance imaging BRAIN grants-supported paper NEUROREGENERATION
下载PDF
Discrete-Time Hybrid Decision Processes: The Discounted Case 被引量:1
3
作者 Buheeerdun Yang Pingjun Hou Masayuki Kageyama 《Applied Mathematics》 2013年第11期1490-1494,共5页
This paper is a sequel to Kageyama et al. [1], in which a Markov-type hybrid process has been constructed and the corresponding discounted total reward has been characterized by the recursive equation. The objective o... This paper is a sequel to Kageyama et al. [1], in which a Markov-type hybrid process has been constructed and the corresponding discounted total reward has been characterized by the recursive equation. The objective of this paper is to formulate a hybrid decision process and to give the existence and characterization of optimal policies. 展开更多
关键词 Hybrid DECISION process Discounted reward CRITERIA Optimal Equation CHANCE Space Fixed Point THEOREM
下载PDF
New repairable system model with two types repair based on extended geometric process 被引量:1
4
作者 WANG Junyuan YE Jimin XIE Pengfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第3期613-623,共11页
A simple repairable system with one repairman is considered. As the system working age is up to a specified time T, the repairman will repair the component preventively, and it will go back to work as soon as the repa... A simple repairable system with one repairman is considered. As the system working age is up to a specified time T, the repairman will repair the component preventively, and it will go back to work as soon as the repair finished. When the system failure, the repairman repair it immediately. The time interval of the preventive repair and the failure correction is described with the extended geometric process. Different from the available replacement policy which is usually based on the failure number or the working age of the system, the bivariate policy (T,N) is considered. The explicit expression of the long-run average cost rate function C(T,N) of the system is derived. Through alternatively minimize the cost rate function C(T,N), the optimal replacement policy (T?,N?) is obtained, and it proves that the optimal policy is unique. Numerical cases illustrate the conclusion, and the sensitivity analysis of the parameters is carried out. 展开更多
关键词 EXTENDED geometric process average cost rate REPLACEMENT policy RENEWAL reward THEOREM
下载PDF
Variance Optimization for Continuous-Time Markov Decision Processes
5
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 CONTINUOUS-TIME MARKOV Decision process Variance OPTIMALITY of Average reward Optimal POLICY of Variance POLICY ITERATION
下载PDF
基于强化学习算法的神经网络模糊测试技术优化研究
6
作者 张宇豪 关昕 《计算机测量与控制》 2024年第3期131-137,共7页
现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中... 现有神经网络模糊测试技术在测试样本生成阶段通常对初始样本进行随机变异,导致生成样本质量不高,从而测试覆盖率不高;针对以上问题,提出一种基于强化学习算法的神经网络模糊测试技术,将模糊测试过程建模为马尔可夫决策过程,在该模型中,测试样本被看作环境状态,不同的变异方法被看作可供选择的动作空间,神经元覆盖率被看作奖励反馈,使用强化学习算法来学习最优的变异策略,指导生成最优测试样本,使其能够获得最高的神经元覆盖率;通过与现有的主流神经网络模糊测试方法的对比实验表明,基于强化学习算法的神经网络模糊测试技术,可以提升在不同粒度下的神经元覆盖。 展开更多
关键词 模糊测试 神经网络 强化学习 马尔科夫决策过程 奖励函数
下载PDF
抑郁个体对奖赏反馈的加工及其神经机制研究
7
作者 李雨桐 林嘉琪 《辽宁师范大学学报(社会科学版)》 2024年第6期61-68,共8页
快感缺失症状改善是抑郁个体在临床上病情康复或缓解的重要指标,这引起了研究者对抑郁个体的奖赏反馈加工及其神经机制的广泛关注。对抑郁个体的奖赏反馈加工及其神经机制进行梳理和总结发现,抑郁个体比健康个体对奖赏反馈的敏感性低,... 快感缺失症状改善是抑郁个体在临床上病情康复或缓解的重要指标,这引起了研究者对抑郁个体的奖赏反馈加工及其神经机制的广泛关注。对抑郁个体的奖赏反馈加工及其神经机制进行梳理和总结发现,抑郁个体比健康个体对奖赏反馈的敏感性低,这可能与抑郁个体获得奖励的动机不足、对情绪情境不敏感、感知控制能力降低等有关。对抑郁个体的奖赏反馈所产生的RewP、fb-P3以及LPP成分结果进行分析,认为神经机制不一致性可能与任务范式以及考察群体之间的差异有关。未来研究可细化奖赏类型,探究抑郁个体对不同反馈物加工的神经基础;采用脑成像技术定位奖赏反馈加工脑区,以支持现有电生理研究的结论;推广研究至抑郁倾向个体。 展开更多
关键词 抑郁症 奖赏反馈加工 RewP fb-P3 LPP
下载PDF
加工时间模糊车间多目标调度与奖惩灰靶决策
8
作者 韩文颖 赵明君 +1 位作者 春兰 巴特尔 《制造技术与机床》 北大核心 2024年第1期108-114,共7页
为了实现加工时间模糊条件下柔性车间多目标优化调度,提出了基于邻域动态选择NSGA-II算法的优化方法和基于奖惩灰靶理论的决策方法。针对加工时间模糊条件下的车间调度问题,采用模糊集理论建立了多目标优化调度模型。在调度优化方面,对N... 为了实现加工时间模糊条件下柔性车间多目标优化调度,提出了基于邻域动态选择NSGA-II算法的优化方法和基于奖惩灰靶理论的决策方法。针对加工时间模糊条件下的车间调度问题,采用模糊集理论建立了多目标优化调度模型。在调度优化方面,对NSGA-II算法选择策略进行改进,构造了邻域动态选择NSGA-II的车间调度多目标优化方法。在决策方面,在灰靶决策理论中引入了奖惩算子,该方法可以决策出信息熵意义下的最优结果。经生产案例验证,与标准NSGA-II算法、混沌映射NSGA-II算法、双层遗传算法等相比,邻域动态选择NSGA-II算法的Pareto解集处于支配地位,表明该方法优化能力最强;经加权灰靶理论决策的最优调度方案满足时间约束和逻辑约束,是一种可行调度方案。实验结果表明,优化和决策方法是可行的,且具有一定优越性。 展开更多
关键词 模糊加工时间 柔性车间调度 NSGA-Ⅱ算法 奖惩灰靶决策 多目标优化
下载PDF
物质成瘾人群金钱奖赏加工的异常机制及可恢复性 被引量:6
9
作者 杨玲 苏波波 +3 位作者 张建勋 柳斌 卫晓芸 赵鑫 《心理科学进展》 CSSCI CSCD 北大核心 2015年第9期1617-1626,共10页
长期的成瘾物质使用造成奖赏系统的变化是成瘾过程发展和维持的关键,这种病理性变化反过来会对奖赏系统的调节功能产生不利的影响,引起认知表现和日常功能方面的障碍。近年来大量的功能性核磁共振成像研究表明物质成瘾人群的金钱奖赏加... 长期的成瘾物质使用造成奖赏系统的变化是成瘾过程发展和维持的关键,这种病理性变化反过来会对奖赏系统的调节功能产生不利的影响,引起认知表现和日常功能方面的障碍。近年来大量的功能性核磁共振成像研究表明物质成瘾人群的金钱奖赏加工相关的腹侧纹状体及其它奖赏脑区激活存在异常。而奖赏加工相关的纹状体激活可以作为治疗效果的预测器和临床恢复的指标;这种奖赏加工异常可以通过戒断有所恢复。今后的研究需要进一步补充奖赏加工的事件相关电位研究,研究物质成瘾人群奖赏加工的特异性,并增加对家庭物质依赖史个体的奖赏加工研究,以及奖赏与执行功能的交互作用机制的研究。 展开更多
关键词 物质成瘾 金钱诱因 奖赏加工 奖赏环路
下载PDF
药物成瘾者决策缺陷的特征、机制及干预 被引量:6
10
作者 杨玲 姚东伟 +3 位作者 曹华 王斌强 何圆圆 苏红婷 《心理科学进展》 CSSCI CSCD 北大核心 2019年第2期329-343,共15页
药物成瘾者存在决策缺陷,并表现出冲动性、风险寻求、奖赏失调、躯体内感信号缺失等特征。神经影像学研究表明药物滥用导致成瘾者背外侧前额皮层、前扣带回、眶额叶皮层、腹内侧前额皮层、杏仁核、脑岛等脑区受损,这些损伤是引发其决策... 药物成瘾者存在决策缺陷,并表现出冲动性、风险寻求、奖赏失调、躯体内感信号缺失等特征。神经影像学研究表明药物滥用导致成瘾者背外侧前额皮层、前扣带回、眶额叶皮层、腹内侧前额皮层、杏仁核、脑岛等脑区受损,这些损伤是引发其决策缺陷的主要原因。认知训练有利于提高个体的决策能力,如目标管理训练和正念冥想等可以增强个体工作记忆、促进自我觉察和以目标为导向的行为;而非侵入性脑刺激则可以直接改变与成瘾者决策相关脑区的激活状态,从而提升与决策相关的认知功能。总体而言,未来认知训练和非侵入性脑刺激在成瘾干预方面仍有广阔的拓展空间。 展开更多
关键词 药物成瘾 决策缺陷 成瘾干预 冲动性 风险寻求 奖赏失调
下载PDF
基于奖优惩劣的密切值法在污水处理工艺优选中的应用 被引量:8
11
作者 黄明 陆燕勤 +1 位作者 许立巍 张学洪 《环境污染与防治》 CAS CSCD 北大核心 2006年第7期512-514,共3页
针对城市污水处理工艺方案优选决策问题,采用了基于奖优惩劣原则的[-1,1]区间线性变化的密切值法决策模型,并介绍了其实现过程。该方法克服了现有的多指标多水平决策模型存在的一些不足,避免了人为主观因素对决策结果的影响,取得了较好... 针对城市污水处理工艺方案优选决策问题,采用了基于奖优惩劣原则的[-1,1]区间线性变化的密切值法决策模型,并介绍了其实现过程。该方法克服了现有的多指标多水平决策模型存在的一些不足,避免了人为主观因素对决策结果的影响,取得了较好的效果,具有较好的应用前景。 展开更多
关键词 污水处理工艺 奖优惩劣 密切值法
下载PDF
策略梯度强化学习中的最优回报基线 被引量:6
12
作者 王学宁 徐昕 +1 位作者 吴涛 贺汉根 《计算机学报》 EI CSCD 北大核心 2005年第6期1021-1026,共6页
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛. 展开更多
关键词 强化学习 策略梯度 部分可观测马氏决策过程 回报基线
下载PDF
具有固定交易费用的证券投资决策问题 被引量:5
13
作者 刘海龙 孙良 潘德惠 《信息与控制》 CSCD 北大核心 1999年第2期136-140,共5页
在Pliska和Selby所建立模型的基础上,研究了具有固定交易费用的证券投资决策问题.通过进行函数变换,将证券投资决策的一类多维二阶偏微方程自由边界问题转化成特别简单的一类偏微分方程自由边界问题.
关键词 证券投资 维纳过程 决策 固定交易费用
下载PDF
自动轧钢电气设备可修的排队系统的更换模型 被引量:2
14
作者 钟福金 张元林 贾积身 《东南大学学报(自然科学版)》 EI CAS CSCD 1994年第6期89-92,共4页
本文研究了由一个自动轧钢电气设备组成的可修排队系统的最优更换模型。在假定该设备可修且不能“修复如新”的前提下,利用几何过程,以被轧制的钢锭数N为其更换策略,选择最优的N*,使得该系统长期运行中单位时间的期望费用达到最... 本文研究了由一个自动轧钢电气设备组成的可修排队系统的最优更换模型。在假定该设备可修且不能“修复如新”的前提下,利用几何过程,以被轧制的钢锭数N为其更换策略,选择最优的N*,使得该系统长期运行中单位时间的期望费用达到最小,并且求出该期望费用的简明表达式,最后还对其结果进行了讨论。 展开更多
关键词 更新过程 轧钢 卷积 电气设备 排队系统
下载PDF
基于随机进程代数的软件体系结构建模与性能评价 被引量:3
15
作者 赵会群 徐凌宇 +1 位作者 王国仁 高远 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第1期16-19,共4页
软件体系结构是应用系统的逻辑框架 ,在设计阶段分析软件体系结构的各种性能指标 ,可以改进软件系统设计·提出一种基于随机进程代数 (stochasticprocessalgebra简称SPA)的软件体系结构建模方法 ,该方法把软件体系结构建模与性能评... 软件体系结构是应用系统的逻辑框架 ,在设计阶段分析软件体系结构的各种性能指标 ,可以改进软件系统设计·提出一种基于随机进程代数 (stochasticprocessalgebra简称SPA)的软件体系结构建模方法 ,该方法把软件体系结构建模与性能评价相结合 ,从而可以在系统设计阶段分析软件体系结构的性能·实践验证该方法更简单。 展开更多
关键词 软件体系结构 随机进程代数 性能评价 MARKOV过程 回报结构 软件设计 建模机制
下载PDF
适于估计OD矩阵的交通检测点的最优分布 被引量:7
16
作者 周晶 盛昭瀚 +2 位作者 何建敏 杨海 王长君 《自动化学报》 EI CSCD 北大核心 2000年第3期303-309,共7页
讨论了适于估计起迄点出行分布矩阵 ( OD矩阵 )的交通检测点的合理分布问题 .根据检测点应当满足的规则 ,建立了关于检测点分布的非线性规划模型 .在已知极点间转移概率的前提下 ,将检测点的分布问题描述成一个平均报酬 Markov决策过程 ... 讨论了适于估计起迄点出行分布矩阵 ( OD矩阵 )的交通检测点的合理分布问题 .根据检测点应当满足的规则 ,建立了关于检测点分布的非线性规划模型 .在已知极点间转移概率的前提下 ,将检测点的分布问题描述成一个平均报酬 Markov决策过程 ,并通过转化为一个等价的整数线性规划问题来求解 .最后实例结果表明该模型是有效的。 展开更多
关键词 交通检测点 最优分布 OD矩阵 整数线性规划
下载PDF
阈上和阈下奖励对有意识和无意识的反应抑制的影响 被引量:2
17
作者 郑艳 Cody Ding +1 位作者 刁留亭 杨东 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第8期148-154,共7页
为比较阈上奖励和阈下奖励对有意识和无意识反应抑制的影响,实验1将奖励启动范式与传统的go/no-go任务相结合,探讨阈上和阈下奖励对有意识的反应抑制的影响,发现阈上高奖励和阈下高奖励均能够提高个体的有意识的反应抑制;实验2将奖励启... 为比较阈上奖励和阈下奖励对有意识和无意识反应抑制的影响,实验1将奖励启动范式与传统的go/no-go任务相结合,探讨阈上和阈下奖励对有意识的反应抑制的影响,发现阈上高奖励和阈下高奖励均能够提高个体的有意识的反应抑制;实验2将奖励启动范式和掩蔽版的go/no-go任务相结合,比较阈上奖励和阈下奖励对有意识的反应抑制和无意识的反应抑制的影响,实验2的结果重复了实验1结果,并且进一步发现阈上高奖励能够提高个体的无意识的反应抑制,而阈下奖励对其并没有影响.研究表明:阈上奖励和阈下奖励对有意识的反应抑制的影响是相同的,而对无意识反应抑制的影响是不同的. 展开更多
关键词 阈上奖励 阈下奖励 无意识加工 反应抑制
下载PDF
基于强化学习算法的多机器人系统的冲突消解策略 被引量:7
18
作者 任燚 陈宗海 《控制与决策》 EI CSCD 北大核心 2006年第4期430-434,439,共6页
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的... 多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能. 展开更多
关键词 多机器人 过程奖赏 优先扫除 强化学习
下载PDF
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:13
19
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
下载PDF
奖励驱动的双任务加工过程中的分离脑机制:来自ERP的证据 被引量:1
20
作者 谭金凤 伍姗姗 +3 位作者 王小影 王丽君 赵远方 陈安涛 《心理学报》 CSSCI CSCD 北大核心 2013年第3期285-297,共13页
运用事件相关电位技术,采用分支双任务范式,探讨在奖励驱动的双任务加工过程中,第一任务奖励编码和第二任务奖励编码的时间进程及其脑机制。结果发现:双任务的反应时显著大于单任务的反应时;单任务的N2波幅显著大于双任务条件;双任务的P... 运用事件相关电位技术,采用分支双任务范式,探讨在奖励驱动的双任务加工过程中,第一任务奖励编码和第二任务奖励编码的时间进程及其脑机制。结果发现:双任务的反应时显著大于单任务的反应时;单任务的N2波幅显著大于双任务条件;双任务的P3波幅显著大于单任务条件。双任务加工过程中奖励编码的半球效应主要体现在P3上,且右半球参与第一任务奖励信息的编码,驱动第一任务;两半球协同参与第二任务奖励信息的编码,驱动第二任务。结果表明:双任务所耗费的心理资源更多,同时双任务加工过程中第一任务奖励信息编码的半球优势效应与任务的性质有关。 展开更多
关键词 双任务 事件相关电位 数字加工 奖励
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部