期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
突破假设:走出探索与利用的管理困境
1
作者 王侃 《中国软科学》 CSSCI CSCD 北大核心 2019年第S01期100-106,共7页
美国管理学家马奇教授于1991年首次提出普遍存在于管理实践中的探索与利用的管理困境问题,而后引发了学术界大量文献的探讨,然而已有研究仍未提供走出困境的清晰方案.本文首先通过引入西方冲突管理理论中的双重关怀模型,将探索与利用之... 美国管理学家马奇教授于1991年首次提出普遍存在于管理实践中的探索与利用的管理困境问题,而后引发了学术界大量文献的探讨,然而已有研究仍未提供走出困境的清晰方案.本文首先通过引入西方冲突管理理论中的双重关怀模型,将探索与利用之间的关系细化为回避矛盾、彼此适应、互相竞争、协同发展以及折中的妥协,突破马奇教授指出的探索与利用在组织内竞争稀缺资源的零和博弈的基本假设.随后,突破正交假设,运用中国古老的阴阳思想,进一步澄清了探索与利用在组织中是边界不清晰的存在形式,彼此相生相克、共生共灭.最后,突破静态假设,运用棋局思维,有效解决探索与利用行为的时机选择问题.通过以上三个针对困境问题默认理论假设的突破性论证,试图引导企业组织通过执行战略学习行为走出探索与利用的管理困境. 展开更多
关键词 探索利用的管理困境 零和博弈假设 正交假设 静态假设 战略学习
下载PDF
探索-利用困境再审视——基于主动推理的视角
2
作者 王姝彦 柴新 《自然辩证法通讯》 北大核心 2024年第7期24-31,共8页
探索-利用困境是当代行为心理学和人工智能等研究领域中的难点问题之一。近些年来,随着神经科学、认知心理学、智能科学、管理科学等学科的不断发展以及脑成像技术的日益进步,有关探索-利用困境的探问也得到了多向路的推展和深化。其中... 探索-利用困境是当代行为心理学和人工智能等研究领域中的难点问题之一。近些年来,随着神经科学、认知心理学、智能科学、管理科学等学科的不断发展以及脑成像技术的日益进步,有关探索-利用困境的探问也得到了多向路的推展和深化。其中,神经科学家卡尔·弗里斯顿基于变分自由能原理提出的主动推理,从计算和神经层次上为探索-利用困境的重解提供了一种整合性的一元化分析立场。在主动推理框架下,可以将探索-利用困境的序贯决策问题转化为单一目标函数的优化,即预期自由能最小化。由此,探索与利用之间的平衡由预期自由能最小化所驱动,认知主体可依据外在环境的改变局部切换认知价值和实用价值从而自适应地平衡探索与利用行为。 展开更多
关键词 探索-利用困境 主动推理 预期自由能 整合
原文传递
联合随机性策略的深度强化学习探索方法
3
作者 杨尚彤 王子磊 《信息技术与网络安全》 2021年第6期43-49,共7页
目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法。该方法利用随机性策略具有探索能力的特点,用随机性策略生成... 目前深度强化学习算法已经可以解决许多复杂的任务,然而如何平衡探索和利用的关系仍然是强化学习领域的一个基本的难题,为此提出一种联合随机性策略的深度强化学习探索方法。该方法利用随机性策略具有探索能力的特点,用随机性策略生成的经验样本训练确定性策略,鼓励确定性策略在保持自身优势的前提下学会探索。通过结合确定性策略算法DDPG和提出的探索方法,得到基于随机性策略指导的确定性策略梯度算法(SGDPG)。在多个复杂环境下的实验表明,面对探索问题,SGDPG的探索效率和样本利用率要优于DDPG算法。 展开更多
关键词 强化学习 深度强化学习 探索利用困境
下载PDF
一种新的蚁群优化算法信息素更新策略及其性能分析 被引量:2
4
作者 颜晨阳 张友鹏 熊伟清 《计算机应用研究》 CSCD 北大核心 2007年第7期86-88,91,共4页
针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过... 针对蚁群优化算法的关键步骤——信息素轨迹更新过程进行了深入分析。通过理论上的证明和实验验证,提出了信息素轨迹更新中存在着一个利用—探索困境;在此基础上针对这个现象提出了一种基于Metrop-olis接受准则的信息素更新策略,并通过在不同规模的TSP上的实验,证明了这种新策略的有效性。 展开更多
关键词 蚁群优化算法 信息素更新策略 利用-探索困境 Metropolis接受准则
下载PDF
深度强化学习理论及其应用综述 被引量:65
5
作者 万里鹏 兰旭光 +1 位作者 张翰博 郑南宁 《模式识别与人工智能》 EI CSCD 北大核心 2019年第1期67-81,共15页
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题... 一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨. 展开更多
关键词 深度强化学习 马尔科夫决策过程 探索-利用困境 稀疏奖励
下载PDF
一种核的上下文多臂赌博机推荐算法 被引量:2
6
作者 王鼎 门昌骞 王文剑 《智能系统学报》 CSCD 北大核心 2022年第3期625-633,共9页
个性化推荐服务在当今互联网时代越来越重要,但是传统推荐算法不适应一些高度变化场景。将线性上下文多臂赌博机算法(linear upper confidence bound,LinUCB)应用于个性化推荐可以有效改善传统推荐算法存在的问题,但遗憾的是准确率并不... 个性化推荐服务在当今互联网时代越来越重要,但是传统推荐算法不适应一些高度变化场景。将线性上下文多臂赌博机算法(linear upper confidence bound,LinUCB)应用于个性化推荐可以有效改善传统推荐算法存在的问题,但遗憾的是准确率并不是很高。本文针对LinUCB算法推荐准确率不高这一问题,提出了一种改进算法K-UCB(kernel upper confidence bound)。该算法突破了LinUCB算法中不合理的线性假设前提,利用核方法拟合预测收益与上下文间的非线性关系,得到了一种新的在非线性数据下计算预测收益置信区间上界的方法,以解决推荐过程中的探索–利用困境。实验表明,本文提出的K-UCB算法相比其他基于多臂赌博机推荐算法有更高的点击率(click-through rate,CTR),能更好地适应变化场景下个性化推荐的需求。 展开更多
关键词 个性化推荐 变化场景 多臂赌博机 线性上下文多臂赌博机 核方法 点击率 非线性 探索利用困境
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部