作者 刘珈麟 贺泽宇 李俊 《计算机应用研究》 CSCD 北大核心 2024年第5期1349-1355,共7页
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。
关键词 异策略评估 模仿学习 逆强化学习 序列推荐
作者 孙洪杰 《商业时代》 北大核心 2013年第4期21-22,共2页
产品属性比较是消费行为研究中的重要命题,并揭示了特殊属性在产品比较中的重要性,研究发现特殊属性相对于共同属性会在属性比较中受到更多关注,不同情形下同异属性各有利弊。不同于传统的差异化策略思维和属性比较中对特殊属性的强调,本研究揭示出在特定情形下趋同属性的正面效用,并对同异属性的效用进行了系统解构,从感知风险和消费者同异需要两个维度构建了属性同异策略选择模型,提出了在不同情形下企业的属性同异策略。
关键词 属性同异策略 属性趋同效应 知觉聚焦效应
异策略深度强化学习中的经验回放研究综述 被引量:3
作者 胡子剑 高晓光 +3 位作者 万开方 张乐天 汪强龙 NERETIN Evgeny 《自动化学报》 EI CAS CSCD 北大核心 2023年第11期2237-2256,共20页
作为一种不需要事先获得训练数据的机器学习方法,强化学习(Reinforcement learning,RL)在智能体与环境的不断交互过程中寻找最优策略,是解决序贯决策问题的一种重要方法.通过与深度学习(Deep learning,DL)结合,深度强化学习(Deep reinforcement learning,DRL)同时具备了强大的感知和决策能力,被广泛应用于多个领域来解决复杂的决策问题.异策略强化学习通过将交互经验进行存储和回放,将探索和利用分离开来,更易寻找到全局最优解.如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键.首先对强化学习的基本理论进行介绍;随后对同策略和异策略强化学习算法进行简要介绍;接着介绍经验回放(Experience replay,ER)问题的两种主流解决方案,包括经验利用和经验增广;最后对相关的研究工作进行总结和展望。
关键词 深度强化学习 异策略 经验回放 人工智能
基于一般化斜投影的异策略时序差分学习算法 被引量:4
作者 吴毓双 陈筱语 +1 位作者 马静雯 陈兴国 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期1052-1062,共11页
在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.在著名的Baird的异策略反例实验上,与相关算法进行了对比,实验结果验证了所提算法的正确性和有效性。
关键词 强化学习 线性函数估计 斜投影 异策略 时序差分学习
基于随机加权三重Q学习的异策略最大熵强化学习算法 被引量:2
作者 范静宇 刘全 《计算机科学》 CSCD 北大核心 2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
关键词 Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法
论言语交际适应原则的取异策略 被引量:1
作者 邱冬梅 刘凤玲 《广州大学学报(社会科学版)》 2007年第1期89-93,共5页
关键词 言语交际 适应原则 异策略 适应
作者 马晓云 《山东商业职业技术学院学报》 2009年第5期1-5,11,共6页
现阶段,我国装备制造业在参与国际竞争与分工中,一直在产业链中处于低附加价值的低端。但是一个只拥有500名员工的中国企业,在国际竞争中打破垄断,演绎了蚂蚁与大象的传奇。为探其缘由,本文由装备制造业上、下游的产业链分析入手,论证了企业要想实现利益最大化,"品牌"是一个非常重要的局限条件。如何实现这一局限条件呢?以沈阳高压成套开关有限公司为例,从理论上验证"品类的对立分异"模型是建立品牌的关键,并对此模型做出相应的拓展分析。
关键词 选择成本 品类 品牌信用 利益点 对立分异策略
作者 张开 《青海师范大学学报(社会科学版)》 2022年第1期109-114,共6页
吐蕃政权在唐代中后期一度控制了今青海全境。在崛起和兼并过程中,吐蕃对农耕和游牧文化兼容并蓄,对青南地区、吐谷浑故地和河湟地区采取不同的统治策略。随着地缘政治因素的动态变化,其统治策略也在不断进行调整。不同的统治策略都根源于于吐蕃以青海为基础、东进西扩的军事意图。
关键词 吐蕃 青海 策略
参考质量效应下的体验类商品全渠道定价策略研究 被引量:7
作者 高莹 胡祥培 +1 位作者 方艳 张漪 《管理工程学报》 CSSCI CSCD 北大核心 2023年第1期147-157,共11页
随着消费的不断升级,消费者更加看重商品体验。销售商积极构建全渠道销售模式提供一体化服务、传递质量信息。然而消费者的体验感受不仅依赖于真实质量,还依赖于真实质量与预期质量的相对量。因此,参考质量效应成为影响商品定价策略的重要因素。本文依据参考质量效应和价格之间的关系特点,运用最优控制理论分析线上线下同价或异价销售策略的适用条件,以及线下体验店只具备展厅功能情形下的体验类商品最优定价。研究发现当参考质量效应较小时,线上线下采用异价销售策略更优;当参考质量效应较大、且线上购买成本也较大时,采用同价销售策略更优。研究还发现当参考质量效应较小时,只具备展厅功能的线下体验店所带来的整体收益优于线下体验店兼具备销售功能情形;而当参考质量效应较大时,兼具销售功能的线下体验店可带来更多收益。本文强调了消费者体验感受对定价策略的影响,丰富了商品定价理论,并提出全渠道销售模式下体验类商品定价策略的选择建议。
关键词 参考质量效应 体验类商品定价 同价策略 策略
作者 刘正新 曾超 孟凡真 《中国建筑金属结构》 2023年第S01期30-34,共5页
本文以平面移动类机械停车库为研究对象,针对不同顾客类型同时到来,即线上和线下用户共同存取车,构建了车库预约模式下异层式和同层式存储策略的运作时间模型。在考虑线上用户优先的情况下,建立了优先排队网络模型,通过Arena仿真软件验证了该模型在优化顾客排队等待时间方面的效果。这项研究对于提升平面移动类机械停车设施的泊车存取速度和效率具有重要的借鉴价值和实际意义。
关键词 平面移动式立体停车库 车位预约模式 同层式存储策略 层式存储策略 Arena仿真
不动点视角下的强化学习算法综述 被引量:2
作者 陈兴国 孙丁源昊 +2 位作者 杨光 杨尚东 高阳 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1246-1271,共26页
近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向。
关键词 强化学习 值函数估计 稳定性 策略 异策略 偏差与方差控制
Investigation of English learning strategy employed by senior middle school students in Zhanjiang City: A comparison of students from urban and rural areas
作者 袁卓喜 《Sino-US English Teaching》 2007年第5期21-25,29,共6页
After a review of learning strategy research in China and abroad, this paper made an investigation on the differences in use of learning strategies reported by urban and rural students from four middle schools in Zhanjiang city. The investigation revealed the following findings: urban students employ cognitive and social strategies more frequently than rural students; urban students reported a wider range of strategies compared with their rural peers; urban students of intermediate achievements employ more social strategies than their rural peers, while rural students use affective strategy significantly more often; urban and rural students reported different patterns of gender difference.
关键词 language learning strategy urban and rural difference senior middle school students
Self-adaptive learning based immune algorithm 被引量:1
作者 许斌 庄毅 +1 位作者 薛羽 王洲 《Journal of Central South University》 SCIE EI CAS 2012年第4期1021-1031,共11页
A self-adaptive learning based immune algorithm (SALIA) is proposed to tackle diverse optimization problems, such as complex multi-modal and ill-conditioned prc,blems with the high robustness. The SALIA algorithm adopted a mutation strategy pool which consists of four effective mutation strategies to generate new antibodies. A self-adaptive learning framework is implemented to select the mutation strategies by learning from their previous performances in generating promising solutions. Twenty-six state-of-the-art optimization problems with different characteristics, such as uni-modality, multi-modality, rotation, ill-condition, mis-scale and noise, are used to verify the validity of SALIA. Experimental results show that the novel algorithm SALIA achieves a higher universality and robustness than clonal selection algorithms (CLONALG), and the mean error index of each test function in SALIA decreases by a factor of at least 1.0×10^7 in average.
关键词 immune algorithm multi-modal optimization evolutionary computation immtme secondary response self-adaptivelearning
作者 樊晨霄 董超 +2 位作者 蔡辉 贾平会 王永海 《战术导弹技术》 北大核心 2021年第6期121-129,共9页
针对高升阻比飞行器在倾侧转弯飞行过程中能量保持的需求,提出一种能量最优的气动力辅助异面倾侧转弯机动(BTT)飞行策略。通过建立轨道动力学及大气层内飞行器横纵向运动方程及动力学模型,分析高升阻比飞行器倾侧转弯的弹道特性,推导并证明终端速度与倾侧转弯幅度相关的解析形式公式,实现弹道参数间的解耦和简化;通过数值优化方法进一步验证飞行策略的能量优化性能,通过龙格库塔法进行数值积分求解,获得能量最优的飞行轨迹。仿真结果表明,该飞行策略与数值优化方法获得的结果高度一致,证明了该解析方法在大幅提升求解效率的同时,具有较高可靠性,可有效指导制导策略总体设计工作,具有工程应用意义。
关键词 高升阻比飞行器 能量优化 倾侧转弯 最优控制 面变轨迹策略
Effects of light intensity on activity in four sympatric anuran tadpoles 被引量:1
作者 Guo-Hua DING Zhi-Hua LIN +2 位作者 Li-Hua ZHAO Xiao-Li FAN Li WEI 《Zoological Research》 CAS CSCD 北大核心 2014年第4期332-337,共6页
Though light conditions are known to affect the development and anti-predation strategies of several aquatic species, relatively little is known about how different species react to light, or how light can affect these species during different points in their life-cycle. In this study, we used four sympatric anuran tadpoles (Bufo gargarizans, B. melanostictus, Pelophylax nigromaculatus and Microhyla fissipes) as animal system to examine species-specific activities of the underdoing different
关键词 ANURA ACTIVITY Developmental stage Light intensity TADPOLE
Influence and Control Strategy for Local Settlement for High-Speed Railway Infrastructure 被引量:5
作者 Gaoliang Kang 《Engineering》 SCIE EI 2016年第3期374-379,共6页
This paper discusses the main impact factors of the local settlement and differential settlement of high- speed railway lines. The analysis results show that groundwater exploitation is the direct cause of differ- ent... This paper discusses the main impact factors of the local settlement and differential settlement of high- speed railway lines. The analysis results show that groundwater exploitation is the direct cause of differ- ential settlement. Based on the study of ballastless track additional load and of vehicle, track, and bridge dynamic responses under different differential settlements, a control standard of differential settlement during operation is proposed preliminarily. 展开更多
关键词 Local settlement Differential settlement Additional load of ballastless track Vehicle and track dynamics
Utilizing Learner Strategies to Improve College Students' Reading Ability
作者 姜望 《Sino-US English Teaching》 2007年第1期14-17,共4页
Reading is the main way of acquiring information and an important method of learning foreign language. But in the reading process, because of the affective and cognitive differences and the lack of knowledge about rea... Reading is the main way of acquiring information and an important method of learning foreign language. But in the reading process, because of the affective and cognitive differences and the lack of knowledge about reading patterns and methods, undergraduates' reading efficiency and speed are greatly influenced. This article analyzes the mode and strategies which can be adopted in English reading. 展开更多
关键词 learner differences reading model reading strategies
Analysis of Price and Industry Dynamics of Sustainable and Specialty Coffee in Costa Rica
作者 Bemard Kilian Lloyd Rivera 《Journal of Agricultural Science and Technology(B)》 2014年第5期375-385,共11页
Volatility of commodity prices has affected dramatically the coffee industry in recent years, particularly small holder farmers. Differentiation of coffee through certification, such as sustainahility and quality attr... Volatility of commodity prices has affected dramatically the coffee industry in recent years, particularly small holder farmers. Differentiation of coffee through certification, such as sustainahility and quality attributes, has been proposed as a strategy for protection of the farmers against volatility in the international prices. This research paper evaluated three different models to explore the effectiveness of the differentiation strategies in protecting the farmer against price volatility in recent years, focusing on the case of Costa Rica. Evidence showed important differences in the price dynamics over time when comparing three groups of coffee. 展开更多
关键词 Commodity prices price volatility sustainable development coffee prices.
A dynamic programming algorithm for network selection in 3G/WLAN 被引量:1
作者 陈佳美 Xu Yubin +1 位作者 Ma Lin Deng Zhian 《High Technology Letters》 EI CAS 2013年第4期364-370,共7页
An essential characteristic of the 4th Generation(4G) wireless networks is integrating various heterogeneous wireless access networks.This paper considers the network selection for both admission and handoff strategy ... An essential characteristic of the 4th Generation(4G) wireless networks is integrating various heterogeneous wireless access networks.This paper considers the network selection for both admission and handoff strategy problems in heterogeneous network of 3G/WLAN.A novel dynamic programming algorithm is proposed by taking heterogeneous network characteristics,user mobility and different service types into account.The specificity of our approach is that it puts the situations in a new model and makes decisions in stages of different states.Simulation results validate that the proposed scheme can obtain better new call blocking and handoff dropping probability performance than traditional schemes while ensuring quality-of-services(QoS) for both real-time and data connections. 展开更多
关键词 dynamic programming heterogeneous networks network selection HANDOFF admission control
Load balancing strategy of heterogeneous wireless networks based on multi-hop routing algorithm of ad hoc network 被引量:1
作者 裴雪兵 朱光喜 《High Technology Letters》 EI CAS 2009年第1期44-50,共7页
Because of different system capacities of base station (BS) or access point (AP) and ununiformity of traffic distribution in different cells, quantities of new call users may be blocked in overloaded cell in commu... Because of different system capacities of base station (BS) or access point (AP) and ununiformity of traffic distribution in different cells, quantities of new call users may be blocked in overloaded cell in communication hot spots. Whereas in some neighboring under-loaded cells, bandwidth may be superfluous because there are only few users to request services. In order to raise resource utilization of the whole heterogeneous networks, several novel load balancing strategies are proposed, which combine the call ad- mission control policy and multi-hop routing protocol of ad-hoc network for load balancing. These loadbalancing strategies firstly make a decision whether to admit a new call or not by considering some parameters like load index and route cost, etc., and then transfer the denied users into neighboring under-loaded cell with surplus channel according to optimum multi-hop routing algorithm. Simulation results show that the proposed load balancing strategies can distribute traffics to the whole heterogeneous wireless netorks, improve the load balance index efficiently, and avoid the call block phenomenon almost absolutely. 展开更多
关键词 load balancing multi-hop routing algorithm call admission control heterogeneous wireless networks
