期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
基于输出反馈逆强化Q学习的线性二次型最优控制方法
1
作者 刘文 范家璐 薛文倩 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第8期1469-1479,共11页
本文针对模型参数未知且状态不可测的线性离散系统的线性二次型最优控制问题,提出了一种数据驱动的基于输出反馈逆强化Q学习的最优控制方法,利用系统的输入输出数据同时确定合适的二次型性能指标权重和最优控制律,使得系统运行轨迹与参... 本文针对模型参数未知且状态不可测的线性离散系统的线性二次型最优控制问题,提出了一种数据驱动的基于输出反馈逆强化Q学习的最优控制方法,利用系统的输入输出数据同时确定合适的二次型性能指标权重和最优控制律,使得系统运行轨迹与参考轨迹一致.本文首先提出一个参数矫正方程并与逆最优控制相结合得到一种基于模型的逆强化学习最优控制框架,实现输出反馈控制律参数和性能指标加权项的矫正.在此基础上,本文引入强化Q学习思想提出了数据驱动的输出反馈逆强化Q学习最优控制方法,无需知道系统模型参数,仅利用历史输入输出数据对输出反馈控制律参数和性能指标加权项进行求解.理论分析与仿真实验验证了所提方法的有效性. 展开更多
关键词 强化学习 Q学习 输出反馈 数据驱动最优控制
下载PDF
基于实时反馈强化学习神经网络的船舶艏摇智能控制研究
2
作者 宋伟伟 徐跃宾 +2 位作者 段学静 巩方超 崔英明 《现代信息科技》 2024年第8期83-88,共6页
文章提出了一种基于实时反馈强化学习神经网络控制的船舶艏摇智能控制方法。该方法将神经网络的非线性建模和强化学习的自适应控制技术相结合,能够实现对船舶航行过程中舵角的精确控制。并将PID控制算法、模型预测控制算法和实时反馈强... 文章提出了一种基于实时反馈强化学习神经网络控制的船舶艏摇智能控制方法。该方法将神经网络的非线性建模和强化学习的自适应控制技术相结合,能够实现对船舶航行过程中舵角的精确控制。并将PID控制算法、模型预测控制算法和实时反馈强化学习神经网络控制算法进行对比分析,仿真实验结果表明,后者在控制效果和稳定性方面均优于前两种方法,能够有效地提高船舶航行过程中舵角的控制精度和鲁棒性。 展开更多
关键词 实时反馈 强化学习 神经网络 船舶艏摇
下载PDF
反馈负波的强化学习和情绪/动机的分离 被引量:1
3
作者 刘春雷 贾磊 +1 位作者 高树玲 张庆林 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第2期151-155,共5页
反馈负波(FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300 ms左右,偶极子源定位发现这一成分产生于前扣带回附近.实验采用事件相关电位方法,以图形作为实验材料,采用联结学习——联结反... 反馈负波(FRN)是由代表行为错误或失去金钱等负性反馈刺激诱发的一种脑电波成分,出现在刺激呈现后250~300 ms左右,偶极子源定位发现这一成分产生于前扣带回附近.实验采用事件相关电位方法,以图形作为实验材料,采用联结学习——联结反转两阶段任务,考察了预期一致和预期不一致对FRN的影响.结果发现:与预期一致时,正性反馈诱发了更负的FRN,溯源分析显示,差异可能源于后扣带回区;与预期不一致时,负性反馈诱发了更负的FRN,溯源分析显示,差异可能源于前扣带回区.上述结果表明,与预期一致时FRN可能反映了情绪/动机过程,与预期不一致时FRN可能反映了强化学习过程. 展开更多
关键词 反馈负波 事件相关电位 强化学习 情绪/动机
下载PDF
基于强化学习的个性化学习路径推荐算法研究 被引量:1
4
作者 陈耀东 《科技风》 2023年第34期82-84,共3页
人工智能技术的发展推动了我国教育向智能化、智慧化方向迈进,国家层面教育发展规划将实现个性化教育和支持个性化学习作为当前信息化建设的重要目标。在探讨当前主流推荐算法的基础上,本文提出了一种基于强化学习的个性化学习路径推荐... 人工智能技术的发展推动了我国教育向智能化、智慧化方向迈进,国家层面教育发展规划将实现个性化教育和支持个性化学习作为当前信息化建设的重要目标。在探讨当前主流推荐算法的基础上,本文提出了一种基于强化学习的个性化学习路径推荐算法。在强化学习的一般框架下,将教师和学习者的反馈数据整合到策略函数,然后通过梯度下降算法对联合参数求最优解。实验面向专业课程目标学习,构建基于视频和知识点的学习路径推荐,在分组的基础上通过试题库评估学习目标的达成度,实验结果表明,基于反馈的强化学习推荐算法能为学习者提供更有效的知识点学习路径。 展开更多
关键词 个性化学习 强化学习 策略函数 反馈标签
下载PDF
基于参考模型的输出反馈强化学习控制 被引量:1
5
作者 郝钏钏 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第3期409-414,479,共7页
现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望... 现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望动态性能的输出反馈控制策略.算法构造了以参考模型为基础的回报函数,可以有效地描述系统的期望闭环动态性能;采用以PID输出反馈控制律为基础的参数化随机控制策略,以便于利用先验知识、依据控制领域常用的PID参数经验整定方法确定较好的初始策略,以缩短学习时间;并使用具有良好学习性能的eNAC算法进行控制策略优化.二阶开环不稳定对象和某型高亚音速无人机俯仰通道线性参变(LPV)模型的学习控制仿真结果验证了算法的有效性. 展开更多
关键词 强化学习控制 回报函数构造 eNAC算法 输出反馈控制策略
下载PDF
强化学习中异构反馈信号的分析与集成
6
作者 余雪丽 李志 +2 位作者 周昌能 崔倩 胡坤 《计算机科学与探索》 CSCD 2012年第4期366-376,共11页
探讨了在高度危险行业的游戏式专业救援培训系统中,视觉与听觉信号能否协同作用以提高人们的记忆和推理能力问题;运用半马尔科夫博弈模型(semi-Markov game,SMG)提出了合作型多agent分层强化学习框架和算法,构建了由视觉处理agent、听... 探讨了在高度危险行业的游戏式专业救援培训系统中,视觉与听觉信号能否协同作用以提高人们的记忆和推理能力问题;运用半马尔科夫博弈模型(semi-Markov game,SMG)提出了合作型多agent分层强化学习框架和算法,构建了由视觉处理agent、听觉处理agent以及人类agent组成的异构异质多agent系统;指出分析和归纳视觉听觉相干反馈信号的性质和特点是非常具有挑战性的任务,其决定了强化学习中异构信号的集成方法和途径。在此基础上,提出了将异构反馈信号进行集成的偏信息学习算法,大大缩小了状态搜索空间,缓解了强化学习固有的"维数灾难"问题;根据心理治疗的"系统脱敏"原理,设计了"情绪-个性-刺激-调节"(mood-personality-stimulus-regulation,MPSR)模型和恐怖场景个性化呈现算法(personalized rendering algorithm for terrorist scene,PRATS),用于提升救援队员的心理承受能力,并通过实验验证了算法的有效性。 展开更多
关键词 强化学习 异构 反馈信号 视觉听觉相干性
下载PDF
基于消息反馈与强化学习的节能路由算法 被引量:1
7
作者 王桐 龚续 +2 位作者 常远 薛书钰 陈奕霏 《应用科技》 CAS 2022年第1期39-46,72,共9页
针对中小型规模水下无线传感器网络中存在的节点能量消耗不均衡、网络生命周期较短的问题,提出一种基于强化学习(RL)与消息反馈机制的能量均衡路由算法,将水下路由问题建模成马尔可夫过程,采用Q-Learning方法并设计直接奖励函数对节点... 针对中小型规模水下无线传感器网络中存在的节点能量消耗不均衡、网络生命周期较短的问题,提出一种基于强化学习(RL)与消息反馈机制的能量均衡路由算法,将水下路由问题建模成马尔可夫过程,采用Q-Learning方法并设计直接奖励函数对节点转发路径进行决策;引入节点转发适宜度规避转发过程中的疑似空洞节点;改进空节点数据包恢复方法。采用NS-3网络仿真模拟器,通过在不同规模下对传感器动态网络算法性能进行对比分析。仿真结果显示,该算法在中等规模动态水下传感器网络中保障较高路由效率与投递成功率的前提下有效均衡了网络节点能量消耗,显著延长了网络生命周期。 展开更多
关键词 水下传感器网络 强化学习 能量有效 奖励函数 反馈消息 路由效率 空洞节点 网络生命周期
下载PDF
基于强化学习的相关反馈图像检索算法 被引量:1
8
作者 孙惠萍 龚声蓉 +1 位作者 王朝晖 刘全 《计算机工程与应用》 CSCD 北大核心 2008年第34期175-178,共4页
相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计... 相关反馈算法是图像检索不可缺的重要组成部分,是近来图像检索中研究的一个热点。提出了基于强化学习的相关反馈算法。根据强化学习中的Q_学习函数,建立矩阵Q,对每幅图像建立对应的一项Q(ii=1,2,…,n),记录每幅图像的本次检索中的累计反馈值,并根据加权特征法计算新的特征,对于每幅反馈的图像根据Q_学习函数计算其当前的累计反馈值。Q值越大即越与例子图像相关。由于强化学习是通过不断对环境的反馈来获得最佳的路径,这与相关反馈通过对用户检索意图的摸索来获得最优答案的思想一致。实验表明,提出的相关反馈算法具有更大的优越性。 展开更多
关键词 强化学习 Q_学习 相关反馈 图像检索
下载PDF
基于人类先验知识的强化学习综述 被引量:2
9
作者 国子婧 冯旸赫 +1 位作者 姚晨蝶 许乃夫 《计算机应用》 CSCD 北大核心 2021年第S02期1-4,共4页
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;... 强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。 展开更多
关键词 强化学习 人类先验知识 人类反馈 人类建议 人类示范
下载PDF
基于选址机制与深度强化学习的WRSN移动能量补充
10
作者 王倩 《现代电子技术》 2023年第21期82-88,共7页
无线充电已成为彻底解决无线传感器网络能量受限问题最有前景的技术之一。针对传感器网络应用场景中的高能量补充需求,提出一种基于选址机制与深度强化学习的一对多充电策略MSRL,利用带权集合覆盖问题求解移动充电装置(MC)的近似最优充... 无线充电已成为彻底解决无线传感器网络能量受限问题最有前景的技术之一。针对传感器网络应用场景中的高能量补充需求,提出一种基于选址机制与深度强化学习的一对多充电策略MSRL,利用带权集合覆盖问题求解移动充电装置(MC)的近似最优充电驻点集;基于Dueling DQN算法,综合考虑传感器的能量消耗率、地理位置、剩余能量等因素确定MC访问充电驻点的顺序。通过捕捉充电动作在时间序列中的关系,使用奖励反馈评估充电决策的质量,自适应调整充电路径,实现MC充电调度的优化。进一步对Dueling DQN算法进行改进,利用Gradient Bandit策略提高奖励值高的样本被采样的概率,加快算法训练速度。大量仿真实验结果表明,MSRL策略不仅可以显著减少传感器节点的死亡数和网络平均能量消耗,延长网络的生存时间,并且优于其他比较方法。 展开更多
关键词 无线可充电传感器网络 一对多能量补充方案 深度强化学习 选址机制 带权集合覆盖 奖励反馈
下载PDF
连续风险决策中先前结果反馈的作用机制
11
作者 张静芝 《心理学进展》 2024年第3期316-327,共12页
连续风险决策是一种决策者在不确定和有风险的情况下做出的连续决策,先前决策的结果反馈是连续决策过程中一个非常重要的影响因素,这类根据反馈信息进行的连续动态决策更贴近现实情境,了解连续风险决策行为中的黑箱机制有助于个体理性... 连续风险决策是一种决策者在不确定和有风险的情况下做出的连续决策,先前决策的结果反馈是连续决策过程中一个非常重要的影响因素,这类根据反馈信息进行的连续动态决策更贴近现实情境,了解连续风险决策行为中的黑箱机制有助于个体理性决策。本研究从参照点适应模型、强化学习模型、注意力模型、多维情绪模型等方面综述了连续风险决策中先前结果反馈的作用机制,试图进一步理解连续风险行为背后的心理机制,厘清多种机制模型在连续的风险决策过程中如何变化发展。未来研究可以深入考察几种机制模型的竞争与结合,探究决策领域发生转换时结果反馈的作用途径,同时重视时间因素在连续风险决策中的影响以及其内在神经机制。 展开更多
关键词 连续风险决策 结果反馈 参照点适应模型 强化学习模型 注意力模型 多维情绪模型
下载PDF
基于深度强化学习的查询扩展模型研究 被引量:5
12
作者 余传明 胡莎莎 +1 位作者 叶鹏昊 安璐 《情报理论与实践》 CSSCI 北大核心 2019年第9期146-153,共8页
文章在传统的伪相关反馈基础上引入深度强化学习的查询扩展方法来改善信息检索中由词不匹配造成的检索效果不佳问题。选择eBay于2017年发布的用户查询与商品名称作为实验数据,利用深度学习框架抽取词的抽象特征,并把召回率作为奖励,使... 文章在传统的伪相关反馈基础上引入深度强化学习的查询扩展方法来改善信息检索中由词不匹配造成的检索效果不佳问题。选择eBay于2017年发布的用户查询与商品名称作为实验数据,利用深度学习框架抽取词的抽象特征,并把召回率作为奖励,使用强化学习方法对扩展词进行选择。当使用召回率、精度和平均精度均值三个指标对模型进行评价时,文章提出的基于深度强化学习的查询扩展方法明显优于基线方法(原始查询、基于TF-IDF的查询扩展、基于余弦相似度的查询扩展和基于深度学习的查询扩展),扩展后的查询检索效果在召回率上比原始查询高1.32%。实验结果表明基于深度强化学习的查询扩展模型能够改善词不匹配带来的问题,提高系统检索效果。 展开更多
关键词 深度强化学习 查询扩展 伪相关反馈 信息检索
下载PDF
自反馈学习理论的最新研究——个性化学习体系的整体设计和改革实践 被引量:3
13
作者 宋家鳌 贾军平 张长泉 《广西社会科学》 2004年第10期182-185,共4页
自反馈学习理论在吸收众多相关学科研究成果的基础上 ,从唯物辩证法的基本观点出发 ,以客观教学现象为研究对象 ,运用现代系统科学的研究方法 ,初步研究并整合脑科学与学习的关系 ;对教育思想、教学内容和教学形式进行了深入的研究 ,揭... 自反馈学习理论在吸收众多相关学科研究成果的基础上 ,从唯物辩证法的基本观点出发 ,以客观教学现象为研究对象 ,运用现代系统科学的研究方法 ,初步研究并整合脑科学与学习的关系 ;对教育思想、教学内容和教学形式进行了深入的研究 ,揭示了教育的本质 ,提出了教育的发展方向和发展目标 ,为当前教育的深入改革提供了系统的。 展开更多
关键词 反馈学习 信息整合 学习理论假设 人类学习模型
下载PDF
欠驱动船舶路径跟踪的强化学习迭代滑模控制 被引量:20
14
作者 沈智鹏 代昌盛 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第5期697-704,共8页
针对三自由度欠驱动船舶的路径跟踪问题,本文提出一种基于强化学习的自适应迭代滑模控制方法。该方法引入双曲正切函数对系统状态进行迭代滑模设计,并采用神经网络对控制参数进行优化,增强控制器的自适应性。通过定义一种控制量抖振测... 针对三自由度欠驱动船舶的路径跟踪问题,本文提出一种基于强化学习的自适应迭代滑模控制方法。该方法引入双曲正切函数对系统状态进行迭代滑模设计,并采用神经网络对控制参数进行优化,增强控制器的自适应性。通过定义一种控制量抖振测量变量和强化学习信号,实现对神经网络的结构和参数进行在线调整,能进一步抑制控制量的抖振作用。应用5446TEU集装箱船的数学模型进行控制仿真,结果表明所设计控制器能有效地处理风和流等外界扰动,具有较强的鲁棒性,与迭代滑模控制器相比舵角的抖振减小明显,控制舵角信号符合船舶的实际操作要求,更符合工程实际要求。 展开更多
关键词 欠驱动船舶 路径跟踪 控制器设计 自适应 迭代滑模控制 滑模面反馈 神经网络 强化学习
下载PDF
多智能体强化学习在城市交通网络信号控制方法中的应用综述 被引量:30
15
作者 杨文臣 张轮 Zhu Feng 《计算机应用研究》 CSCD 北大核心 2018年第6期1613-1618,共6页
交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL)方法建模与描述。为了研究该方法的现状、存在... 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境,将每个路口的交通信号控制器看做一个异质的智能体,非常适合采用无模型、自学习、数据驱动的多智能体强化学习(MARL)方法建模与描述。为了研究该方法的现状、存在问题及发展前景,系统跟踪了多智能体强化学习在国内外交通控制领域的具体应用,包括交通信号MARL控制概念模型、完全孤立的多智能体强化学习(MARL)的控制、部分状态合作的多智能体强化学习控制和动作联动的多智能体强化学习(MARL)控制,分析其技术特征和代际差异,讨论了多智体强化学习方法在交通信号控制中的研究动向,提出了发展网络交通信号多智能体强化学习集成控制的关键问题在于强化学习控制机理、联动协调性、交通状态特征抽取和多模式整合控制。 展开更多
关键词 智能交通 交通控制 多智能体强化学习 闭环反馈 联动协调 数据驱动
下载PDF
基于深度强化学习的服务功能链跨域映射算法 被引量:3
16
作者 朱国晖 李庆 梁申麟 《计算机应用研究》 CSCD 北大核心 2021年第6期1834-1837,1842,共5页
在域内部分信息隔离场景下,针对SFC映射对传输时延和资源开销的影响,提出一种基于深度强化学习的服务功能链跨域映射算法。首先提出一个集中式编排架构,在此架构下上层控制器利用全网格聚合技术来构建抽象拓扑,降低域间映射复杂度;其次... 在域内部分信息隔离场景下,针对SFC映射对传输时延和资源开销的影响,提出一种基于深度强化学习的服务功能链跨域映射算法。首先提出一个集中式编排架构,在此架构下上层控制器利用全网格聚合技术来构建抽象拓扑,降低域间映射复杂度;其次将SFC请求分割问题建模为马尔可夫决策过程,使得虚拟网络功能均衡地分配到各个域中;最后以域间传输时延以及映射资源开销为奖励函数构建深度强化学习网络,通过训练完成域间映射,如果域内映射失败则采用反馈机制提高SFC请求接受率。仿真结果表明,该算法有效地减小了传输时延和资源开销,同时提高了请求接受率。 展开更多
关键词 多网络域 服务功能链 深度强化学习 反馈机制
下载PDF
基于深度强化学习的云软件服务自适应资源分配方法 被引量:3
17
作者 傅德泉 杨立坚 陈哲毅 《计算机应用》 CSCD 北大核心 2022年第S01期201-207,共7页
近年来,基于云计算的软件服务对自适应的资源分配技术提出了越来越高的要求,以保证良好的服务质量(QoS)和合理的资源成本。然而,由于云环境中不断变化的工作负载,基于云计算的软件服务资源分配面临着巨大的挑战,不合理的资源分配方案可... 近年来,基于云计算的软件服务对自适应的资源分配技术提出了越来越高的要求,以保证良好的服务质量(QoS)和合理的资源成本。然而,由于云环境中不断变化的工作负载,基于云计算的软件服务资源分配面临着巨大的挑战,不合理的资源分配方案可能降低QoS,并且导致高额的资源成本。传统的方法大多依赖于专家知识或者多次迭代,这可能导致适应性差和额外的成本。现有的基于强化学习(RL)的方法通常以固定的工作负载环境为目标,不能有效地适应具有可变工作负载的真实场景。为此,提出一种基于深度强化学习(DRL)的自适应资源分配方法,在该方法中根据运行时系统状态训练得到基于深度Q网络(DQN)的管理操作预测模型,并且设计了一种基于反馈控制的运行时决策算法,进而可以根据当前系统状态确定目标资源分配方案。在RUBiS基准对方法进行了评估,实验结果表明,该方法比经典的基于启发式的粒子群优化(PSO)算法和贪心算法适应度函数值平均分别高出4.4%和5.6%,能够有效地平衡对于QoS和资源成本的需求。 展开更多
关键词 云计算 基于云的软件服务 资源分配 深度强化学习 反馈控制
下载PDF
基于负反馈修正的多轮对话推荐系统 被引量:1
18
作者 朱立玺 黄晓雯 +1 位作者 赵梦媛 桑基韬 《计算机学报》 EI CAS CSCD 北大核心 2023年第5期1086-1102,共17页
传统的推荐系统从交互历史中挖掘用户兴趣,面临着无法动态地获取用户实时偏好和细粒度偏好的问题,近年对话推荐系统领域的兴起为此问题提供了新的解决方案.对话推荐系统优势在于其可以动态地和用户进行交互,并在交互过程中获取用户的实... 传统的推荐系统从交互历史中挖掘用户兴趣,面临着无法动态地获取用户实时偏好和细粒度偏好的问题,近年对话推荐系统领域的兴起为此问题提供了新的解决方案.对话推荐系统优势在于其可以动态地和用户进行交互,并在交互过程中获取用户的实时偏好,从而提高推荐系统准确率,提升用户体验.然而对话推荐系统相关研究工作中缺乏对负反馈的充分利用,难以对用户偏好表示进行细粒度的修正,即难以有效平衡用户长期偏好和实时偏好之间的关系,同时存在属性候选集过大导致交互轮次过多的问题.因此,本文基于经典的对话推荐框架CPR(Conversational Path Reasoning)提出了一种能够有效利用用户负反馈的对话推荐模型NCPR(Negative-feedback-guide Conversational Path Reasoning).不同于现有的对话推荐系统工作,NCPR能够充分利用用户在交互过程中给出的属性粒度和物品粒度的负反馈对用户的偏好表示进行动态的修正.此外,CPR将对话推荐建模为一个图上的路径推理问题,NCPR使用协同过滤算法基于属性粒度的负反馈对属性候选集进行重排序,在利用图结构的自然优势限制属性候选集大小的同时,进一步减少候选属性空间大小.四个基准数据集上的实验结果表明,NCPR在推荐准确率和平均交互轮次两个评价指标上的表现优于先进的基线模型.最后,我们设计并实现了一个网页端的对话推荐系统,与在线用户进行交互产生推荐结果,证明了NCPR在真实的对话推荐场景下的有效性. 展开更多
关键词 对话推荐系统 强化学习 交互负反馈 知识图谱 协同过滤
下载PDF
教育人工智能支持人类学习机制的两种效应
19
作者 刘欣 李怀龙 《中国教育信息化》 2020年第17期1-4,10,共5页
随着人工智能技术的快速发展,教育人工智能(EAI)逐渐走入教育研究者的视野。EAI是一个将人工智能技术与学习科学相结合的新兴领域,是人工智能技术对教育领域引发影响的深刻表现。然而作为EAI的逻辑起点问题——EAI缘何能够促进人类学习... 随着人工智能技术的快速发展,教育人工智能(EAI)逐渐走入教育研究者的视野。EAI是一个将人工智能技术与学习科学相结合的新兴领域,是人工智能技术对教育领域引发影响的深刻表现。然而作为EAI的逻辑起点问题——EAI缘何能够促进人类学习,以及在对人类学习机制的支持时,又发挥了何种效应,这一课题尚未有定论。探讨该课题对EAI的理论研究和应用研究均具有重大意义,只有将其弄清理顺,才能真正推动EAI在教育理论上的完善与教育实践中的运用。文章论证了EAI支持人类学习机制的两种效应,先比较了基于逻辑结构和基于物理结构的学习机制(均从人类学习机制和机器学习机制两个层面上给出探讨)的不同,进而阐明人类和机器在学习机制上的联系,重点论述EAI对信息心理加工过程的延展效应、EAI对大脑神经网络结构的强化效应。 展开更多
关键词 教育人工智能 人类学习机制 机器学习机制 延展效应 强化效应
下载PDF
最新无模型深度强化学习研究:从零开始训练机器人“玩乐高” 被引量:2
20
作者 Tuomas Haarnoja Vitchyr Pong +3 位作者 Aurick Zhou Murtaza Dalal Pieter Abbeel Sergey Levine 《机器人产业》 2018年第3期48-51,共4页
伯克利最新提出无模型深度强化学习方法——soft Q-learning(SQL)算法,该算法可以对模拟和现实世界的任务执行组合性,同时在该算法基础上提出了一种使用具有表达性的神经网络策略学习机器人操作技能的学习框架。
关键词 机器人系统 强化学习 无模型 型深 训练 学习方法 人类学习 基于模型
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部