期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
Facilitating knowledge management strategies through IT and HRM
1
作者 Mehrdad Madhoushi Abdolrahim Sadati Hamidreza Delavari Mohsen Mehdivand Mozhdeh Hedayatifard 《Chinese Business Review》 2010年第10期57-66,共10页
In an increasingly competitive environment, where new business practices are regularly introduced, organizations have to be innovative to survive. In the present competitive climate, knowledge is considered as the mai... In an increasingly competitive environment, where new business practices are regularly introduced, organizations have to be innovative to survive. In the present competitive climate, knowledge is considered as the main distinguishing factor of business success, and it is seen as the foundation of organization's innovation. The emergence of knowledge-intensive society has changed the nature of business competition. Hence knowledge needs to be appropriately managed. Knowledge Management (KM) focuses on managing different knowledge processes such as acquiring, creating, storing, sharing, transferring and applying implicit and explicit knowledge with objective of product and process innovation, performance development and sustainable competitive advantage. This paper tries to demonstrate KM lead to promotion of innovation and performance when it is correctly supported by human resource management (HRM) and information technology (IT). The questions we will try to investigate in this paper are: How knowledge in organizations can be managed? What is the connection between HRM, IT and effective implementation knowledge management strategies and how these relationships affect on organizational goals? For this means, this study ftrst states the importance of knowledge, KM process and introduces two strategies for managing knowledge (exploitative and explorative strategy). Next, it demonstrates each strategy requires to desired facilitator to support them in action. Finally, with presenting of model, this study concludes that each one of strategy can cover some KM process. Hence for the effective implementation of knowledge management process, organizations have to utilize both strategies. 展开更多
关键词 knowledge management exploitative strategy explorative strategy IT HRM
下载PDF
奥连特盆地隐蔽油藏高效滚动勘探开发方法技术及应用——以厄瓜多尔14和17区块为例
2
作者 王光付 李发有 +8 位作者 孙建芳 徐海 张亚雄 冯玉良 丁峰 叶双江 陈诗望 吴洁 孙钰 《石油与天然气地质》 EI CAS CSCD 北大核心 2024年第1期243-255,共13页
厄瓜多尔14和17区块位于奥连特盆地前渊带,主要含油层系为Napo组的M1,U和T段。现已开发油田进入高含水阶段,资源接替面临挑战。通过基于趋势面驱动的叠后地震数据连片一致性处理、时-频衰减高精度合成记录标定和解释及各向异性变速成图... 厄瓜多尔14和17区块位于奥连特盆地前渊带,主要含油层系为Napo组的M1,U和T段。现已开发油田进入高含水阶段,资源接替面临挑战。通过基于趋势面驱动的叠后地震数据连片一致性处理、时-频衰减高精度合成记录标定和解释及各向异性变速成图,精细刻画了低幅度构造,发现了一批低幅度构造油藏。采用分频迭代去噪拾取薄层弱反射系数,以其重构的叠后宽频有效信号为约束,采用相控波形非线性反演,定量预测了埋深3 000 m的2~5 m厚潮汐水道砂岩,发现了多个M1超薄层岩性油藏。依据区域水动力条件、低幅度构造油藏油-水界面趋势及油藏能量特征,发现了LU水动力油藏并滚动扩边。通过观察大量岩心薄片,发现海绿石在石英砂岩储层中呈胶结物和颗粒两种赋存状态,建立了海绿石双组构测井解释体积模型,评价并识别了UT低电阻率油藏。基于热带雨林地表和隐蔽油藏特点,按照“整体部署、分批实施、跟踪评价、及时调整”的策略,实现滚动勘探、评价和快速建产,探井和评价井成功率大于90%。 展开更多
关键词 水动力成藏 低幅度构造 低电阻率油层 勘探开发策略 隐蔽油藏 奥连特盆地 厄瓜多尔
下载PDF
求解动态旅行商问题的蚁群优化算法新策略
3
作者 刘孟莹 秦进 陈双 《计算机仿真》 2024年第8期349-355,368,共8页
动态旅行商问题是标准旅行商问题的一个扩展,由于其现实应用广泛,吸引了大量研究者的兴趣。蚁群优化算法可以转化历史环境信息,天然具有适应动态改变的能力,可以解决动态旅行商问题。使用蚁群优化算法解决优化问题时,算法探索能力和利... 动态旅行商问题是标准旅行商问题的一个扩展,由于其现实应用广泛,吸引了大量研究者的兴趣。蚁群优化算法可以转化历史环境信息,天然具有适应动态改变的能力,可以解决动态旅行商问题。使用蚁群优化算法解决优化问题时,算法探索能力和利用能力的权衡是一个关键问题。传统的思路是在搜索前期侧重探索能力,使蚁群充分获取搜索空间的信息,随着搜索过程的进行逐渐增强利用能力,使蚁群逐渐收敛。然而,以上思路不利于在动态场景中快速获得质量较高的解。针对动态旅行商问题,提出了一种新的探索-利用权衡策略,在环境变化后,首先使用模拟退火算法增强利用能力以快速获得质量较高的解,在解质量难以提高时再使用自适应性轮盘赌选择方法帮助算法跳出局部极值。在权重变化的动态旅行商问题上的实验证明,所提新策略优于其它蚁群优化算法及变体。 展开更多
关键词 动态旅行商问题 蚁群优化 探索-利用权衡策略 模拟退火算法 轮盘赌选择方法
下载PDF
梯级水库深度强化学习长期随机优化调度研究 被引量:1
4
作者 李文武 周佳妮 +1 位作者 裴本林 张一凡 《水力发电学报》 CSCD 北大核心 2023年第11期21-32,共12页
梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的... 梯级水库调度相较于单库调度状态空间呈指数级增大,为解决基于表格的强化学习方法在解决梯级水库长期随机优化调度问题时面临的维数灾问题,提出采用深度强化学习中的深度Q网络算法求解。首先基于Copula函数分析梯级水库随机入库径流的联合分布函数;再根据时序差分思想分别建立目标神经网络和主神经网络,分别逼近当前和下一状态对应的动作状态价值,并采用ε-贪婪探索利用策略获取最优调度策略;最后将主要参数分步调优保障调度效益。算例对比表明,深度Q网络算法相较于Q学习算法及其改进算法提升了优化调度目标值,加快收敛速度,有效解决了梯级水库随机优化调度中的维数灾问题. 展开更多
关键词 梯级水库随机优化调度 深度强化学习 深度Q网络算法 时序差分思想 探索利用策略
下载PDF
基于金字塔模型和多策略协同的萤火虫算法
5
作者 刘彦伶 樊棠怀 +2 位作者 王晖 康平 赵嘉 《计算机工程与设计》 北大核心 2023年第9期2722-2730,共9页
为克服萤火虫算法使用全吸引模型和单一学习策略易陷入局部最优的缺点,提出一种基于金字塔模型和多策略协同的萤火虫算法。将种群分为4层,最高层粒子使用柯西突变策略;第二和第三层粒子分别使用双粒子领导和精英邻域搜索策略向更高层学... 为克服萤火虫算法使用全吸引模型和单一学习策略易陷入局部最优的缺点,提出一种基于金字塔模型和多策略协同的萤火虫算法。将种群分为4层,最高层粒子使用柯西突变策略;第二和第三层粒子分别使用双粒子领导和精英邻域搜索策略向更高层学习;最后一层粒子使用三样本学习策略向前三层学习。各层粒子向更高层粒子及自身学习,形成金字塔模型;各层粒子采用不同的学习方法,构成多策略协同。分层寻优减少运动次数,避免算法运行过程中的粒子振荡;多策略协同平衡算法的探索与开发能力,保证算法的多样性。通过在两组测试函数上与改进萤火虫算法及其它群智能算法进行比较,验证了该算法的优化性能。 展开更多
关键词 萤火虫算法 金字塔模型 多策略协同 柯西突变 精英邻域搜索 分层 探索与开发
下载PDF
基于动作概率的强化学习动作探索策略
6
作者 于飞 郝建国 张中杰 《计算机应用与软件》 北大核心 2023年第5期184-189,226,共7页
针对强化学习在应用过程中存在的探索与利用平衡问题,提出一种基于动作概率的强化学习动作探索策略。该策略结合强化学习中状态-动作值函数的大小,动态调整动作选择概率,以提高强化学习效率,解决探索与利用之间的平衡问题。通过两个格... 针对强化学习在应用过程中存在的探索与利用平衡问题,提出一种基于动作概率的强化学习动作探索策略。该策略结合强化学习中状态-动作值函数的大小,动态调整动作选择概率,以提高强化学习效率,解决探索与利用之间的平衡问题。通过两个格子世界的仿真环境,结合Q-learning算法和DeepSARSA算法进行仿真验证,对比了ε-greedy策略和Softmax分布策略,结果表明提出的探索策略具有较好的收敛速度和稳定性。 展开更多
关键词 强化学习 探索与利用 探索策略 动作选择
下载PDF
探索型、挖掘型战略选择对组织绩效的影响研究 被引量:27
7
作者 罗彪 葛佳佳 王琼 《管理学报》 CSSCI 北大核心 2014年第1期37-45,共9页
基于资源基础理论,尝试从组织松弛视角出发,运用内容分析法对中国企业展开情境化研究。重构"二元战略行为→绩效"模型,并引入组织松弛变量,通过对中国120家高科技企业样本数据的分析发现:探索型战略行为和挖掘型战略行为对企... 基于资源基础理论,尝试从组织松弛视角出发,运用内容分析法对中国企业展开情境化研究。重构"二元战略行为→绩效"模型,并引入组织松弛变量,通过对中国120家高科技企业样本数据的分析发现:探索型战略行为和挖掘型战略行为对企业财务绩效的影响存在结构性差异;平衡二元战略有利于企业长期绩效,而结合二元战略对企业长期绩效的影响不显著;不同类型组织松弛与探索型战略行为、挖掘型战略行为存在差异化匹配,组织松弛通过促进结合二元战略提升组织长期绩效。 展开更多
关键词 探索型战略 挖掘型战略 组织二元性 组织松弛 组织绩效
下载PDF
最优区分视角下创新战略和政治战略对数字化新创企业绩效的影响研究 被引量:16
8
作者 郭海 李阳 李永慧 《研究与发展管理》 CSSCI 北大核心 2021年第1期12-26,共15页
新创企业同时面临创新压力和合法化压力,两者间的张力在数字化新创企业中表现得尤其明显。一方面,数字技术的发展要求新创企业通过创新建立竞争优势;另一方面,数字创新在颠覆传统技术与商业模式的同时也给新创企业带来了合法性挑战。基... 新创企业同时面临创新压力和合法化压力,两者间的张力在数字化新创企业中表现得尤其明显。一方面,数字技术的发展要求新创企业通过创新建立竞争优势;另一方面,数字创新在颠覆传统技术与商业模式的同时也给新创企业带来了合法性挑战。基于最优区分理论,本文考察了数字化新创企业如何调和创新与合法化张力以实现最优绩效。研究发现,探索式和利用式创新均有助于提升数字化新创企业绩效。积极型政治战略强化探索式创新对企业绩效的影响;反应型政治战略强化利用式创新对企业绩效的影响,但弱化探索式创新的作用。本研究立足数字创业情境丰富了创新战略与企业绩效研究,拓展了企业政治战略与创新战略的关系研究,发展了最优区分理论的协奏观点。 展开更多
关键词 最优区分 探索式创新 利用式创新 积极型政治战略 反应型政治战略 数字经济
下载PDF
知识管理策略与组织知识水平关系研究——探索式与利用式学习的视角 被引量:8
9
作者 廖列法 王刊良 《科学学研究》 CSSCI 北大核心 2008年第5期1037-1045,共9页
本文从探索式学习和利用式学习的角度出发,运用计算机仿真模型,研究组织知识编码和个性化知识管理策略在不同内外环境下对组织知识水平的影响。研究表明,在组织内外环境稳定的情境下,组织知识编码策略能够快速提高组织知识水平,个性化... 本文从探索式学习和利用式学习的角度出发,运用计算机仿真模型,研究组织知识编码和个性化知识管理策略在不同内外环境下对组织知识水平的影响。研究表明,在组织内外环境稳定的情境下,组织知识编码策略能够快速提高组织知识水平,个性化策略则能提高组织长期知识水平;当组织有人员流动时,采用知识编码策略可以使组织知识水平与人员流动率的关系呈倒U型结构,而组织实施个性化知识管理策略时,组织知识水平负相关于人员流动率;在外部环境变动情况下,个性化策略比编码策略保持更好的组织知识水平。 展开更多
关键词 知识管理策略 组织学习 探索式学习 利用式学习 仿真
下载PDF
移动机器人局部避障路径规划仿真研究 被引量:12
10
作者 宋莉 李彩虹 +1 位作者 王小宇 张宁 《计算机仿真》 北大核心 2018年第7期279-284,309,共7页
研究复杂环境下基于Q-Learning(QL)算法的移动机器人局部路径规划问题,快速、准确地完成避障路径规划。为了解决QL算法收敛速度慢、探索与利用两难及危险区域等问题,提出了一种基于QL-模糊的移动机器人局部避障路径规划方法。首先为了加... 研究复杂环境下基于Q-Learning(QL)算法的移动机器人局部路径规划问题,快速、准确地完成避障路径规划。为了解决QL算法收敛速度慢、探索与利用两难及危险区域等问题,提出了一种基于QL-模糊的移动机器人局部避障路径规划方法。首先为了加快QL算法的收敛速度,根据规划问题设计状态动作变量,对其进行离散化处理,降低状态空间维度;在Q矩阵的基础上,设计更新步长算法,使Q矩阵的更新程度不断减弱。然后根据机器人工作环境和规划目标,在设计奖惩函数的基础上,设计ε-探索与利用平衡策略和动作选择算法来选择执行动作,平衡探索与利用问题。为了预防死锁问题,在模糊控制规则中还设计了预防方案,以提高路径规划效率。算法进行了仿真验证。仿真结果表明,即使在复杂的环境中,机器人仍能有效避障,规划出最优或次优路径。 展开更多
关键词 移动机器人 局部路径规划 模糊控制 探索与利用平衡策略
下载PDF
市场学习、创新方式与企业多维绩效关系研究 被引量:5
11
作者 韩晨 高山行 《科技进步与对策》 CSSCI 北大核心 2017年第7期68-75,共8页
探讨了探索性和应用性市场学习、突破式和渐进式创新与企业效率和效果绩效之间的差异化关系。基于303家中国企业双份调研数据的实证研究发现:渐进式创新正向促进突破式创新,并受竞争战略独特性正向调节;探索性市场学习比应用性市场学习... 探讨了探索性和应用性市场学习、突破式和渐进式创新与企业效率和效果绩效之间的差异化关系。基于303家中国企业双份调研数据的实证研究发现:渐进式创新正向促进突破式创新,并受竞争战略独特性正向调节;探索性市场学习比应用性市场学习更有助于促进突破式创新,而应用性市场学习比探索性市场学习更有助于促进渐进式创新;两种市场学习交互正向影响突破式和渐进式创新,但对突破式创新的影响更强;突破式创新比渐进式创新对绩效效率与效果两方面的提升都更大。 展开更多
关键词 探索性市场学习 应用性市场学习 突破式创新 渐进式创新 竞争战略 效率 效果
下载PDF
一种新的蚁群优化算法信息素更新策略及其性能分析 被引量:2
12
作者 颜晨阳 张友鹏 熊伟清 《计算机应用研究》 CSCD 北大核心 2007年第7期86-88,91,共4页
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过... 针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。 展开更多
关键词 蚁群优化算法 信息素更新策略 利用-探索困境 Metropolis接受准则
下载PDF
多策略混合搜索的人工蜂群算法 被引量:6
13
作者 宋晓宇 赵月 赵明 《计算机工程与设计》 北大核心 2020年第9期2530-2537,共8页
为解决基本人工蜂群算法收敛速度慢、开发能力不足的问题,提出多策略混合搜索的人工蜂群算法。在雇佣蜂阶段采用两个具有不同探索与开发特征的搜索策略,分配不同的混合比例,增加种群多样性;观察蜂阶段将精英解作为搜索起点,修改食物源... 为解决基本人工蜂群算法收敛速度慢、开发能力不足的问题,提出多策略混合搜索的人工蜂群算法。在雇佣蜂阶段采用两个具有不同探索与开发特征的搜索策略,分配不同的混合比例,增加种群多样性;观察蜂阶段将精英解作为搜索起点,修改食物源选择方式,加快种群收敛。利用不同搜索策略的不同特征,以及合适的混合比例,实现算法在探索与开发之间的平衡。22个标准函数测试集的实验对比结果表明,提出算法在搜索精度、稳定性、收敛速度方面均优于其它算法。 展开更多
关键词 人工蜂群算法 混合搜索 搜索策略 高斯分布 精英解 探索与开发 混合比例
下载PDF
知识资产特性与高技术企业学习战略研究 被引量:5
14
作者 钟竞 《科学学研究》 CSSCI 北大核心 2006年第A02期582-589,共8页
对我国115家高技术企业的知识资产(技术资产、关系资产、和结构资产)特性与组织学习战略和绩效之间的关系进行实证研究,发现默会性以及组织融合与利用型学习战略显著正相关,而声誉、组织融合以及自由自主特性与探索型学习战略显著正相... 对我国115家高技术企业的知识资产(技术资产、关系资产、和结构资产)特性与组织学习战略和绩效之间的关系进行实证研究,发现默会性以及组织融合与利用型学习战略显著正相关,而声誉、组织融合以及自由自主特性与探索型学习战略显著正相关。声誉对组织绩效影响显著。默会性通过利用型学习战略对组织整体绩效和新产品绩效起作用。探索型学习战略对组织的整体绩效起显著的正面作用但对新产品绩效不存在显著的影响。 展开更多
关键词 知识资产 学习战略 利用 探索
下载PDF
中国石油战略问题思考和对策分析 被引量:5
15
作者 周文 赵安坤 周秋媚 《成都理工大学学报(社会科学版)》 2010年第3期57-63,共7页
目前,中国油气储量、产量有明显的上升,但天然气勘探开发明显滞后于世界其它国家,油气资源消耗中存在五个方面的问题。根据未来油气资源的需求,我国应调整石油消费结构,提高油气资源利用效益;不断提高天然气在我国能源利用的比例;开辟... 目前,中国油气储量、产量有明显的上升,但天然气勘探开发明显滞后于世界其它国家,油气资源消耗中存在五个方面的问题。根据未来油气资源的需求,我国应调整石油消费结构,提高油气资源利用效益;不断提高天然气在我国能源利用的比例;开辟新的油气探区,保障中国海洋石油资源的权益;加强国外油气勘探开发,开展国际石油贸易;加强能源勘探开发、利用相关的立法,建立完善的石油战略储备制度;加强油气新能源的勘探开发和综合利用技术研究,增加油气来源的多元化。 展开更多
关键词 石油战略 对策 油气勘探开发 国际石油贸易 能源立法 战略储备制度 油气新能源
下载PDF
战略联盟对新创企业合法性获取的影响研究——组织学习的中介作用 被引量:1
16
作者 何霞 苏晓华 《产经评论》 CSSCI 北大核心 2015年第3期81-93,共13页
战略联盟研究忽略新创企业这一有新生活力的组织形式,或是新创企业研究缺乏联盟战略思维及行动,都不能不说是一种缺憾。战略联盟是新创企业克服新生弱性、应对市场竞争与制度空缺并存的新兴经济环境、获取组织合法性的重要策略,而战略... 战略联盟研究忽略新创企业这一有新生活力的组织形式,或是新创企业研究缺乏联盟战略思维及行动,都不能不说是一种缺憾。战略联盟是新创企业克服新生弱性、应对市场竞争与制度空缺并存的新兴经济环境、获取组织合法性的重要策略,而战略联盟对新创企业合法性获取的作用机理研究还有待深入。基于197家新创企业的样本数据,对组织学习在战略联盟与新创企业合法性获取之间的中介作用进行实证研究。在对"战略联盟→组织学习→组织合法性"之间关系的讨论中,以中国情境下的经验证据研究发现:战略联盟不直接作用于组织合法性,而是以组织学习方式影响战略联盟与组织合法性获取之间的关系。结果表明,新创企业通过探索式学习和利用式学习,增强了企业因实施战略联盟而获得有效利用内外部资源和能力的机会,促进企业提升自身合法性水平;探索式学习和利用式学习在战略联盟与组织合法性的关系间发挥着完全中介作用;两类组织学习方式与新创企业战略联盟形式的匹配关系对新创企业获取合法性有着显著影响。 展开更多
关键词 新创企业 战略联盟 组织合法性 探索式学习与利用式学习 中介作用
下载PDF
混合遗传算法自适应策略研究
17
作者 陈雄峰 曾霞霞 徐戈 《闽江学院学报》 2020年第2期24-30,共7页
在针对性设计使得混合遗传算法可处理大规模组合优化问题的基础上,分析问题解空间的特征,研究相应自适应策略。提出和采用了交叉全局探索单个模因构造、候选解接受、局部搜索和种群多样性保持等自适应策略,大幅减少了混合遗传算法运行... 在针对性设计使得混合遗传算法可处理大规模组合优化问题的基础上,分析问题解空间的特征,研究相应自适应策略。提出和采用了交叉全局探索单个模因构造、候选解接受、局部搜索和种群多样性保持等自适应策略,大幅减少了混合遗传算法运行时间。以超大规模集成电路标准单元布局问题为测试实例,实验结果表明了这些自适应策略的有效性。 展开更多
关键词 混合遗传算法 自适应策略 全局探索 局部搜索
下载PDF
中印两国勘探开发境外能源战略比较研究
18
作者 张魁中 《株洲师范高等专科学校学报》 2007年第6期18-21,共4页
由于中国和印度都面对着同样的国际环境,且基本国情相似,特别是在能源安全方面都面临着相同或相似的问题。即近年来经济呈现高速和持续增长,能源问题,尤其是石油问题已成为制约中印经济发展的最大瓶颈,中印都积极面向全球部署本国... 由于中国和印度都面对着同样的国际环境,且基本国情相似,特别是在能源安全方面都面临着相同或相似的问题。即近年来经济呈现高速和持续增长,能源问题,尤其是石油问题已成为制约中印经济发展的最大瓶颈,中印都积极面向全球部署本国的能源战略,为迅猛增长的经济谋求充足的能源保障。我国的能源战略应向石油进口渠道多样化及多方面与石油输出国乃至消费国加强合作的途径发展。 展开更多
关键词 中国 印度 勘探开发 能源战略
下载PDF
一种融合邻域搜索的多策略差分进化算法 被引量:9
19
作者 孙灿 周新宇 王明文 《系统仿真学报》 CAS CSCD 北大核心 2020年第6期1071-1084,共14页
设计多策略差分进化算法的难点在于选择何种变异策略以及如何分配这些策略。提出一种融合邻域搜索的多策略差分进化算法,根据个体适应度值将种群分为3个子种群,每个子种群分别采用不同的变异策略和参数值,使得各子种群的搜索能力可互补... 设计多策略差分进化算法的难点在于选择何种变异策略以及如何分配这些策略。提出一种融合邻域搜索的多策略差分进化算法,根据个体适应度值将种群分为3个子种群,每个子种群分别采用不同的变异策略和参数值,使得各子种群的搜索能力可互补,有助于平衡整个种群的勘探和开采能力。同时,对适应度值最好的子种群采用邻域搜索操作,充分挖掘优质个体可能包含的有益信息用于指导搜索。在34个测试函数上实验,与包含7种差分进化算法在内的12种进化算法进行对比,结果表明该算法在大多数函数上取得了更好性能。 展开更多
关键词 差分进化 多策略 邻域搜索 勘探能力 开采能力
下载PDF
基于平均序列累计奖赏的自适应ε-greedy策略 被引量:5
20
作者 杨彤 秦进 《计算机工程与应用》 CSCD 北大核心 2021年第11期148-155,共8页
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能... 探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。 展开更多
关键词 深度强化学习 探索与利用 序列累计奖赏 ε-greedy策略
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部