期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
平均报酬模型强化学习理论、算法及应用 被引量:4
1
作者 黄炳强 曹广益 李建华 《计算机工程》 CAS CSCD 北大核心 2007年第18期18-19,39,共3页
折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬... 折扣报酬模型强化学习是目前强化学习研究的主流,但折扣因子的选取使得近期期望报酬的影响大于远期期望报酬的影响,而有时候较大远期期望报酬的策略有可能是最优的,因此比较合理的方法是采用平均报酬模型强化学习。该文介绍了平均报酬模型强化学习的两个主要算法以及主要应用。 展开更多
关键词 平均报酬强化学习 R学习 H学习
下载PDF
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制 被引量:10
2
作者 余涛 袁野 《电力系统自动化》 EI CSCD 北大核心 2010年第21期27-33,共7页
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学... 提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。 展开更多
关键词 控制性能标准(CPS) 自动发电控制(AGC) 平均报酬模型 R(λ)学习 模仿学习
下载PDF
可重入生产系统的平均报酬型强化学习调度 被引量:5
3
作者 柳长春 沈志江 于海斌 《信息与控制》 CSCD 北大核心 2004年第2期145-150,共6页
在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优... 在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 . 展开更多
关键词 可重入生产系统 平均报酬型强化学习调度 优化 调度策略
下载PDF
平均报酬模型的多步强化学习算法 被引量:4
4
作者 胡光华 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期660-664,共5页
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的... 讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 . 展开更多
关键词 R学习 强化学习算法 平均报酬模型 机器学习
下载PDF
基于平均报酬模型的强化学习算法研究 被引量:1
5
作者 黄炳强 曹广益 +1 位作者 费燕琼 王占全 《上海理工大学学报》 EI CAS 北大核心 2006年第5期418-422,共5页
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化... 对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向. 展开更多
关键词 平均报酬强化学习 R学习 H学习 LC学习
下载PDF
平均报酬指标多步递推最小二乘即时差分学习
6
作者 李春贵 刘永信 王萌 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第5期560-565,共6页
对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线... 对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法,并给出了其一致收敛性证明. 展开更多
关键词 即时差分学习 平均报酬 函数近似 最小二乘 递推
下载PDF
企业家激励与报酬的合理确定 被引量:4
7
作者 何永芳 朱敏 《商业研究》 北大核心 2004年第22期30-33,共4页
企业家的报酬形式有多种多样 ,每种形式都有其优点和缺点。以发达国家企业家的平均报酬为其人均GDP的倍数作为基准 ,通过一定的方法可以确定出我国企业家合理的平均报酬 ,以及基本工资、奖金。
关键词 企业家 平均报酬 股权 股票期权
下载PDF
确定我国企业家合理报酬的一种简易方法 被引量:4
8
作者 何永芳 朱敏 《华东经济管理》 2003年第5期59-62,共4页
以发达国家企业家的平均报酬为其人均GDP的倍数作为基准,通过一定的方法,可以确定出我国企业家合理的平均报酬、基本工资,由此,还可以确定出某企业企业家的合理报酬、基本工资,以及奖金、股权数量和股票期权数量。
关键词 企业家 薪酬 股权 股票期权 GDP 基本工资 平均报酬 奖金
下载PDF
可数状态MDP的平均模型 被引量:1
9
作者 郭先平 《数学年刊(A辑)》 CSCD 北大核心 1996年第5期539-546,共8页
本文考虑可数状态空间任意行动空间MDP的平均模型,分析了四个平均报酬准则,在通常的遍历性条件下,用鞅论的方法证明了其最优报酬值的一致性和最优策略的存在性,从而较好地解决了Feinberg和Park[1]再次提及的Open问题.通过导入相应... 本文考虑可数状态空间任意行动空间MDP的平均模型,分析了四个平均报酬准则,在通常的遍历性条件下,用鞅论的方法证明了其最优报酬值的一致性和最优策略的存在性,从而较好地解决了Feinberg和Park[1]再次提及的Open问题.通过导入相应于Feinberg和Park[1]的非循环条件,用概率分析的方法证明了一致最优(f,B)-生成策略的存在性,推广了Feinberg和Park(1994)的主要结果。 展开更多
关键词 马氏决策规划 平均报酬准则 平均模型 最优策略
下载PDF
第二产业内部劳动报酬差异研究 被引量:1
10
作者 丁梓楠 《企业经济》 CSSCI 北大核心 2011年第9期130-133,共4页
第二产业是我国经济的主导产业,其劳动报酬水平是初次分配福利水平的重要体现。本文选取平均劳动报酬和劳动报酬比重作为研究的两个维度,通过动态和静态比较,对第二产业内部各门类、不同要素密集型行业的劳动报酬及其差异进行全面衡量,... 第二产业是我国经济的主导产业,其劳动报酬水平是初次分配福利水平的重要体现。本文选取平均劳动报酬和劳动报酬比重作为研究的两个维度,通过动态和静态比较,对第二产业内部各门类、不同要素密集型行业的劳动报酬及其差异进行全面衡量,总结出第二产业劳动报酬及其差异的特点和变化规律。第二产业内部产业层次越高的行业,初次分配状况越好。文章还就第二产业初次收入分配的公平与效率问题进行了有效评价。 展开更多
关键词 第二产业 初次收入分配 劳动报酬比重 平均劳动报酬
下载PDF
上市公司经营者薪酬激励与公司绩效相关性的实证分析 被引量:10
11
作者 闫丽荣 刘芳 《统计与信息论坛》 2006年第1期101-104,108,共5页
文章利用上市公司2001-2004年的数据,对上市公司经营者薪酬激励与公司绩效的相关性进行了实证分析。结果表明:国有企业经营者薪酬与公司绩效没有显著的正相关关系,而民营企业经营者薪酬与企业绩效有显著的正相关关系;上市公司经营... 文章利用上市公司2001-2004年的数据,对上市公司经营者薪酬激励与公司绩效的相关性进行了实证分析。结果表明:国有企业经营者薪酬与公司绩效没有显著的正相关关系,而民营企业经营者薪酬与企业绩效有显著的正相关关系;上市公司经营者持股对经营者的薪酬没有显著影响,而公司规模对经营者薪酬有显著影响。 展开更多
关键词 经营者 经营绩效 年度平均报酬 上市公司 实证分析 薪酬制度
下载PDF
我国电子商务环境下税制改革的基本思路
12
作者 傅纯恒 汪长辉 贺中其 《科技进步与对策》 北大核心 2002年第5期147-149,共3页
在长期的研究和工作实践中得到研究结论:通过实行收入来源地、居民税收管辖权并行和付费地标准可以解决电子商务下的税收管辖权问题;税源的追踪与征缴方面可以通过银行对电子凭证自动生成的流转税款实行代扣预缴税款来解决;税率的确定... 在长期的研究和工作实践中得到研究结论:通过实行收入来源地、居民税收管辖权并行和付费地标准可以解决电子商务下的税收管辖权问题;税源的追踪与征缴方面可以通过银行对电子凭证自动生成的流转税款实行代扣预缴税款来解决;税率的确定以销售利润率和社会平均报酬率为依据;征缴办法可用比特税和信息税征缴办法;通过对资金流的扣缴、对电子现金支付的自动扣缴、对物流的缴税检查以及纳税人的补缴与退税申请来确定电子商务下的税收征管模式。 展开更多
关键词 电子商务 税制改革 付费地标准 销售利润率 社会平均报酬 征管模式 税务制务 中国
下载PDF
关于直接投资决策指标问题:财务管理重点、难点问题学习指导之三
13
作者 王化成 杨景岩 《中华会计函授》 1997年第4期17-18,共2页
关键词 企业 财务管理 直接投资 现金流量 营业现金流量 投资回收期 平均报酬
下载PDF
投资决策方法分析研究
14
作者 曹建武 《科技创新导报》 2010年第7期188-189,共2页
长期投资决策主要用于规划企业未来发展方向与经营规模,其正确与否,关系到企业的生死存亡。企业必须采用科学的长期投资决策方法,使所选择的投资方案达到技术与经济的统一与最优化,使企业的投资效益最大化。
关键词 投资回收期法 平均报酬率法 净现值法 内含报酬率法 现值指数法
下载PDF
上市公司经营者薪酬激励与公司绩效的实证分析
15
作者 刘芳 《辽宁税务高等专科学校学报》 2006年第3期47-48,共2页
利用2002年、2003年、2004年281家上市公司的年报数据对经营者激励进行了实证研究,结果显示:2002至2004年连续三年中,经营者的薪酬与公司绩效、公司规模都显著正相关,而经营者薪酬与其持股比例都不存在显著的相关关系。
关键词 经营者 公司绩效 年度平均报酬
下载PDF
投资决策方法比较研究 被引量:3
16
作者 钱建伟 《商业经济》 2007年第1期74-75,共2页
长期投资决策主要用于规划企业未来发展方向与经营规模,其正确与否,会对企业产生重大的影响。应采用科学的决策方法,使所选择的投资方案达到技术与经济的统一与最优化。现有投资决策方法主要有贴现金流量法、非贴现金流量法、内部报酬... 长期投资决策主要用于规划企业未来发展方向与经营规模,其正确与否,会对企业产生重大的影响。应采用科学的决策方法,使所选择的投资方案达到技术与经济的统一与最优化。现有投资决策方法主要有贴现金流量法、非贴现金流量法、内部报酬率法、获利指数法、净现值法等五种决策方法。净现值法在长期投资决策中总能作出正确的决定,因此,净现值法是企业进行长期投资决策的最佳选择方法。 展开更多
关键词 投资回收期法 平均报酬率法 净现值法 内含报酬率法 现值指数法
下载PDF
A股与H股公司审计意见对股价影响的对比研究 被引量:6
17
作者 赵保卿 郝亮 《南京审计学院学报》 2015年第1期66-75,共10页
将香港和内地上市公司两者市场审计意见对股价的影响作比较,以2010—2012年的A股、H股上市的公司被出具非标准审计意见的情况为研究对象,以超额收益法、累计平均异常报酬率为方法进行实证分析。研究结果显示:A股上市公司被出具非标准审... 将香港和内地上市公司两者市场审计意见对股价的影响作比较,以2010—2012年的A股、H股上市的公司被出具非标准审计意见的情况为研究对象,以超额收益法、累计平均异常报酬率为方法进行实证分析。研究结果显示:A股上市公司被出具非标准审计意见对股价的负面影响并没有比其被出具标准无保留审计意见更显著;H股市场的非标准审计意见会使股价下跌;H股与A股非标准审计意见对股价影响效果不同。 展开更多
关键词 非标准审计意见 香港金融市场 超额收益法 累计平均异常报酬 审计报告 股价变化
下载PDF
略论农业生产技术措施的综合平衡
18
作者 陆承祖 《农业技术经济》 1984年第7期33-37,共5页
一、农业生产技术措施综合平衡的范围 要进行农业生产技术措施综合平衡的研究,首先要解决综合平衡的范围,即在什么范围内进行综合平衡。 农业生产技术措施综合平衡的理论是由“报酬递减律”引申出来的。“
关键词 生产技术措施 综合平衡 报酬递减律 农业 边际报酬 生产因素 农业生产 固定因素 平均报酬 播种量
下载PDF
Incremental Multi Step R Learning
19
作者 胡光华 吴沧浦 《Journal of Beijing Institute of Technology》 EI CAS 1999年第3期245-250,共6页
Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithm... Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithms for average reward problems, a novel incremental algorithm, called R( λ ) learning, was proposed. Results and Conclusion The proposed algorithm is a natural extension of the Q( λ) learning, the multi step discounted reward reinforcement learning algorithm, to the average reward cases. Simulation results show that the R( λ ) learning with intermediate λ values makes significant performance improvement over the simple R learning. 展开更多
关键词 reinforcement learning average reward R learning Markov decision processes temporal difference learning
下载PDF
浅析公路建设项目经济评价中内部收益率的确定 被引量:1
20
作者 隋吉军 付萍 《东北公路》 2001年第3期99-100,共2页
通过对当前普遍应用的内部收益率计算方法的分析 ,指出存在的缺欠 ,提出修正办法。
关键词 内部收益率 加权平均投资报酬 资本成本 公路建设项目 经济评价
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部