期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于BC-MAAC算法的高速入口匝道合并类人决策
1
作者 于镝 张昌文 +1 位作者 熊双双 刘朋友 《计算机应用研究》 北大核心 2025年第1期117-124,共8页
针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,... 针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,并且从Highway-env平台收集的多智能体专家数据中推导出专家策略,利用推导的专家策略与智能体当前策略的KL散度来塑造奖励函数,指导智能体训练过程。同时,应用动作屏蔽机制,在每一步过滤掉不安全或无效的动作,提高学习效率。两种不同交通密度场景的仿真结果表明所提算法整体性能优于基线算法,提升了车辆的通行效率和安全性。简单模式中,所提算法的成功率达到100%,平均速度和平均奖励分别至少提升0.73%和11.14%;困难模式中,所提算法的成功率达到93.40%,平均速度和平均奖励分别至少提升3.96%和12.23%。可见BC-MAAC算法通过专家奖励函数指导网联自动驾驶车辆,能够通过合作更类人的完成高速入口匝道合并任务。 展开更多
关键词 网联自动驾驶车辆 智能决策 高速入口匝道合并 行为克隆 多智能体强化学习
下载PDF
油茶乙酰辅酶A羧化酶BC亚基全长cDNA克隆及序列分析 被引量:6
2
作者 谭晓风 蒋瑶 +1 位作者 王保明 张琳 《中南林业科技大学学报》 CAS CSCD 北大核心 2010年第2期1-9,共9页
以油茶‘湘林1号’品种的近成熟种子为材料,采用简并PCR、RACE、交错PCR等技术,获得了油茶乙酰辅酶A羧化酶BC亚基基因的全长cDNA克隆。该基因cDNA序列全长1 901 bp,含有一个1 599 bp的ORF,编码533个氨基酸残基。BC蛋白的等电点pI为6.88... 以油茶‘湘林1号’品种的近成熟种子为材料,采用简并PCR、RACE、交错PCR等技术,获得了油茶乙酰辅酶A羧化酶BC亚基基因的全长cDNA克隆。该基因cDNA序列全长1 901 bp,含有一个1 599 bp的ORF,编码533个氨基酸残基。BC蛋白的等电点pI为6.88,分子量为58 509.3 u,含两个跨膜结构域,是一个不稳定的非分泌蛋白。模体搜索结果表明在BC上具有N-糖基化位点、蛋白激酶C磷酸化位点、ATP结合位点等多个功能结构域。同源建模的模型中发现12个α-螺旋,整个BC蛋白为一个内凹的结构。该基因已登录到GenBank,并被命名为co-bc。 展开更多
关键词 油茶 乙酰辅酶A羧化酶 bc 基因克隆 序列分析
下载PDF
驽巴贝虫BC-48基因的克隆及其在大肠杆菌中的表达 被引量:3
3
作者 薛书江 于龙政 +1 位作者 曹世诺 张守发 《中国兽医科学》 CAS CSCD 北大核心 2007年第3期214-217,共4页
采用PCR方法扩增驽巴贝虫吉林分离株BC-48基因片段,将扩增产物与pGEM-T Easy载体连接,重组质粒经PCR、单酶切鉴定后测序;构建BC-48的重组pGEX-4T-2表达载体,经IPTG诱导表达后,进行SDS-PAGE、Western-blotting分析。结果显示,克隆的BC-4... 采用PCR方法扩增驽巴贝虫吉林分离株BC-48基因片段,将扩增产物与pGEM-T Easy载体连接,重组质粒经PCR、单酶切鉴定后测序;构建BC-48的重组pGEX-4T-2表达载体,经IPTG诱导表达后,进行SDS-PAGE、Western-blotting分析。结果显示,克隆的BC-48基因片段长610 bp,含有一个570 bp的开放阅读框,编码189个氨基酸,与GenBank中USDA株(U46551)的同源性为96.7%;表达的融合蛋白为45 ku,能被驽巴贝虫阳性血清识别;表明该融合蛋白具有较好的反应原性。 展开更多
关键词 驽巴贝虫 bc-48基因 克隆 表达
下载PDF
油桐乙酰辅酶A羧化酶BC亚基全长cDNA克隆及序列分析 被引量:8
4
作者 王哲 谭晓风 龙洪旭 《中南林业科技大学学报》 CAS CSCD 北大核心 2015年第3期53-58,共6页
以葡萄桐的近成熟种子为材料,根据油桐转录组测序结果设计引物,采用RT-PCR技术克隆了油桐乙酰辅酶A羧化酶BC亚基基因的全长c DN A序列。该基因c DNA序列全长1 605 bp,编码534个氨基酸。推导出的BC亚基氨基酸序列蛋白的等电点p I为7.98,... 以葡萄桐的近成熟种子为材料,根据油桐转录组测序结果设计引物,采用RT-PCR技术克隆了油桐乙酰辅酶A羧化酶BC亚基基因的全长c DN A序列。该基因c DNA序列全长1 605 bp,编码534个氨基酸。推导出的BC亚基氨基酸序列蛋白的等电点p I为7.98,相对分子量58 262.0 Da,稳定系数为38.13,生物信息学分析表明,此蛋白含有2个比较明显的跨膜区,是一个不稳定的非分泌蛋白。模体搜索结果表明在BC上具有ATP结合位点。三级结构中有16个α螺旋,3个部分形成一个内凹的结构。 展开更多
关键词 油桐 乙酰辅酶A羧化酶 bc亚基 基因克隆 序列分析
下载PDF
基于混合模仿学习的多智能体追捕决策方法
5
作者 王焱宁 张锋镝 +1 位作者 肖登敏 孙中奇 《计算机科学》 北大核心 2025年第1期323-330,共8页
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。 展开更多
关键词 智能决策 强化学习 行为克隆 生成对抗模仿学习
下载PDF
谷子乙酰辅酶A羧化酶BC功能域的克隆及原核表达载体的构建 被引量:6
6
作者 楚敏 赵虎基 +2 位作者 郑明刚 刘红玲 乐锦华 《石河子大学学报(自然科学版)》 CAS 2004年第5期408-410,共3页
根据已知的乙酰辅酶A羧化酶(ACCase)序列设计合成了1对引物,对ACCase基因的BC功能域进行扩增,所得产物与预期片段大小一致,约1.8kb。该片段与克隆载体PGEM TEase连接,转入感受态大肠杆菌DH5а中增殖。提取质粒进行PCR鉴定,将阳性克隆与... 根据已知的乙酰辅酶A羧化酶(ACCase)序列设计合成了1对引物,对ACCase基因的BC功能域进行扩增,所得产物与预期片段大小一致,约1.8kb。该片段与克隆载体PGEM TEase连接,转入感受态大肠杆菌DH5а中增殖。提取质粒进行PCR鉴定,将阳性克隆与原核表达载体PQE30分别用KpnⅠ和SalⅠ双酶切后回收目的片段进行连接,并转入感受态大肠杆菌M15中,所获重组质粒经过酶切、测序鉴定,证实含有目的片段,且连接、构建正确。 展开更多
关键词 ACCASE bc功能域 克隆 原核表达 载体
下载PDF
基于深度强化学习的无信号灯路口决策研究 被引量:1
7
作者 傅明建 郭福强 《计算机工程》 CAS CSCD 北大核心 2024年第5期91-99,共9页
无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函... 无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAMBC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。 展开更多
关键词 深度强化学习 自动驾驶 模仿学习 行为克隆 驾驶决策
下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:2
8
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
下载PDF
基于行为克隆的高通量卫星通信频谱资源分配
9
作者 秦浩 李双益 +2 位作者 赵迪 孟昊炜 宋彬 《通信学报》 EI CSCD 北大核心 2024年第5期101-114,共14页
为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法。第一阶段基于行为克隆,利用已有卫星资源分配决... 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法。第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛。第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能。仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳。 展开更多
关键词 高通量卫星 行为克隆 深度强化学习 近端策略优化 卷积注意力模块
下载PDF
蜡质芽孢杆菌aiiA基因的克隆及融合表达 被引量:9
10
作者 黄天培 杨梅 +4 位作者 姚帆 黄张敏 俞晓敏 黄志鹏 黄必旺 《福建农林大学学报(自然科学版)》 CSCD 北大核心 2006年第3期292-297,共6页
设计一对可扩增aiiA基因完整的开放阅读框的简并引物对aiiA1和aiiA2,通过PCR技术对3株蜡质芽孢杆菌(Bc)的aiiA基因进行检测.结果表明,它们均含有aiiA基因.利用pMD18-T克隆载体直接从GP7菌株的PCR产物中克隆了aiiA基因.测序结果表明,该基... 设计一对可扩增aiiA基因完整的开放阅读框的简并引物对aiiA1和aiiA2,通过PCR技术对3株蜡质芽孢杆菌(Bc)的aiiA基因进行检测.结果表明,它们均含有aiiA基因.利用pMD18-T克隆载体直接从GP7菌株的PCR产物中克隆了aiiA基因.测序结果表明,该基因(GenBank登录号:AY943831)由753个碱基组成,编码含有250个氨基酸残基的蛋白质.该蛋白质推测的分子质量为28 ku,等电点约4.235.核苷酸序列的BLAST分析结果表明,与之同源性较高的基因均为Bc组aiiA基因(87%-99%).在氨基酸序列多重比较的基础上,应用PHYLIP软件构建了A iiA蛋白的系统发育树.此外,利用原核融合表达载体pMXB10初步研究了A iiA、几丁质结合蛋白(CBD)及Inte in融合蛋白诱导表达的情况. 展开更多
关键词 蜡质芽孢杆菌(bc) AIIA 基因克隆 序列分析 生物信息学 系统发育树 融合蛋白
下载PDF
软件Agent的继承性研究 被引量:3
11
作者 樊晓聪 徐殿祥 +1 位作者 侯建民 郑国梁 《软件学报》 EI CSCD 北大核心 1999年第11期1132-1137,共6页
Agent作为一种受限的智能对象,对Agent的继承权性进行深入研究并将继承机制嵌入到AOP(agent-orientedprogramming)中则具有重要意义.文章基于BDIAgent模型,对软件Agent的继承性和复制行为进行了研究。从单继承和多继承两个方面给... Agent作为一种受限的智能对象,对Agent的继承权性进行深入研究并将继承机制嵌入到AOP(agent-orientedprogramming)中则具有重要意义.文章基于BDIAgent模型,对软件Agent的继承性和复制行为进行了研究。从单继承和多继承两个方面给成了Agent继承的语义,将Agent实例的动态复制机制形式地划分为功能分割、逻辑分割、择优分割和返祖分割这4类,分析了每类分割方式的作用,并基于电子市场系统应用背景给出了相应的实例. 展开更多
关键词 软件 人工智能 继承性 BDI模型
下载PDF
基于粒群行为与克隆的移动机器人进化路径规划 被引量:4
12
作者 李枚毅 蔡自兴 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第5期739-744,共6页
针对移动机器人路径规划,将粒群行为和生命科学中的免疫克隆原理、进化算法相结合,将过去进化过程中的经验通过粒群行为来体现,提出了一种结合粒群行为和免疫克隆的移动机器人进化规划,较快速地规划出性能是全局优化的可行路径。分析了... 针对移动机器人路径规划,将粒群行为和生命科学中的免疫克隆原理、进化算法相结合,将过去进化过程中的经验通过粒群行为来体现,提出了一种结合粒群行为和免疫克隆的移动机器人进化规划,较快速地规划出性能是全局优化的可行路径。分析了粒群行为的二种学习方式对路径规划的作用,研究了通过调整粒群行为操作中的参数实现多路径规划。通过仿真实验,对上述算法进行了验证。 展开更多
关键词 移动机器人 路径规划 粒群行为 克隆 进化算法
下载PDF
冷箭竹更新幼龄种群生长发育特性的初步研究 被引量:7
13
作者 周世强 黄金燕 《四川林业科技》 2002年第2期29-33,共5页
本文分析了卧龙自然保护区冷箭竹更新幼龄种群的生长发育特性 ,结果表明 :冷箭竹幼龄种群的地径和株高生长分别为 0 15cm和 13 713cm ,且随着龄级的增加 ,其地径、株高生长反而趋于递降趋势。不同林分类型的生长发育指数相异 ,各指数... 本文分析了卧龙自然保护区冷箭竹更新幼龄种群的生长发育特性 ,结果表明 :冷箭竹幼龄种群的地径和株高生长分别为 0 15cm和 13 713cm ,且随着龄级的增加 ,其地径、株高生长反而趋于递降趋势。不同林分类型的生长发育指数相异 ,各指数的排序递次是岷江冷杉 -冷箭竹林 >铁杉 +糙皮桦 -冷箭竹林 >铁杉+红桦 -冷箭竹林 ;而且随着海拔高度的变化 ,种群的生长发育特性具有明显的空间分布规律。 展开更多
关键词 冷箭竹 天然更新 幼龄种群 生长发育特性
下载PDF
一个用户行为相关的结构化对等网络维护代价削减协议
14
作者 张昱 靳军 +1 位作者 曹元大 成保栋 《天津大学学报》 EI CAS CSCD 北大核心 2010年第6期495-501,共7页
结构化P2P系统固有的高度动态性,造成其自身结构的维护代价非常大,甚至影响到系统的可用性.针对这一问题,利用资源共享系统中用户行为的规律性,采用克隆节点的方法,提出一个新的基于用户行为的克隆节点协议(clone node protocol,CNP)来... 结构化P2P系统固有的高度动态性,造成其自身结构的维护代价非常大,甚至影响到系统的可用性.针对这一问题,利用资源共享系统中用户行为的规律性,采用克隆节点的方法,提出一个新的基于用户行为的克隆节点协议(clone node protocol,CNP)来削减这种维护代价.在此基础上实现了一个基于CNP协议的Clone Node Chord系统(即CNChord),并提出了CNChord下的被动式克隆算法、快速定位算法、差异性push同步算法和优化维护算法.理论分析和实验结果表明,CNP可以有效地降低结构化P2P系统自身结构的维护代价,同时将系统的查询复杂度提高到了(1/2)O(lg N). 展开更多
关键词 对等网 结构化 用户行为 克隆 维护代价
下载PDF
克隆食品购买行为的影响因素——基于可感知风险理论的定性分析
15
作者 梁杰 房瑞景 朱玉东 《安徽农业科学》 CAS 2015年第18期364-366,369,共4页
依据可感知风险理论,定性分析了消费者克隆食品购买行为的影响因素。结果表明,收入水平、动物疫病担心度、受教育程度、企业品牌重视度、监管部门认可度和高科技提高食品安全性对消费者克隆食品购买行为具有积极影响;然而,获取信息渠道... 依据可感知风险理论,定性分析了消费者克隆食品购买行为的影响因素。结果表明,收入水平、动物疫病担心度、受教育程度、企业品牌重视度、监管部门认可度和高科技提高食品安全性对消费者克隆食品购买行为具有积极影响;然而,获取信息渠道种数对消费者克隆食品购买行为具有消极影响。 展开更多
关键词 克隆食品 购买行为 影响因素 食品安全
下载PDF
模仿学习方法综述及其在机器人领域的应用 被引量:11
16
作者 李帅龙 张会文 周维佳 《计算机工程与应用》 CSCD 北大核心 2019年第4期17-30,共14页
模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了... 模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了很好的效果。主要阐述了模仿学习在机器人学领域的研究与运用。介绍了和模仿学习相关的理论知识;研究了模仿学习的两类主要方法:行为克隆学习方法和逆强化学习方法;对模仿学习的成功应用进行总结;最后,给出当前面对的问题和挑战并且展望未来发展趋势。 展开更多
关键词 人工智能 行为克隆 逆强化学习 模仿学习
下载PDF
舞毒蛾LdOR2基因克隆及对CO_(2)胁迫下的行为反应 被引量:1
17
作者 王建国 王建军 +1 位作者 曹传旺 孙丽丽 《北京林业大学学报》 CAS CSCD 北大核心 2021年第9期101-110,共10页
【目的】本文克隆了舞毒蛾的气味受体基因LdOR2,并阐明该基因在舞毒蛾各发育期和组织中的表达特征及其对CO_(2)浓度胁迫下的行为响应,为进一步研究气候变化下舞毒蛾的嗅觉反应机制提供理论依据。【方法】通过转录组文库筛选克隆出LdOR2... 【目的】本文克隆了舞毒蛾的气味受体基因LdOR2,并阐明该基因在舞毒蛾各发育期和组织中的表达特征及其对CO_(2)浓度胁迫下的行为响应,为进一步研究气候变化下舞毒蛾的嗅觉反应机制提供理论依据。【方法】通过转录组文库筛选克隆出LdOR2基因,利用生物信息学分析其基因特性,通过实时荧光定量PCR(RT-qPCR)技术检测LdOR2基因在不同发育阶段和组织以及不同CO_(2)浓度(397、550和750μL/L)下的表达水平,并利用RNA干扰(RNAi)技术研究不同CO_(2)浓度下LdOR2基因沉默后舞毒蛾的行为学反应。【结果】舞毒蛾LdOR2基因开放阅读框(ORF)为1203 bp,编码400个氨基酸,蛋白分子量为45.76 kDa,理论等电点为8.22;进化树分析结果表明,舞毒蛾LdOR2与黏虫MsepOR24和双委夜蛾AdisOR21亲缘关系较近,并聚为一类;RT-qPCR结果显示,LdOR2在舞毒蛾各发育阶段均有表达,在雌蛹中表达量最高,雄成虫中表达量最低;在雌、雄成虫不同组织中,雌、雄触角中表达量显著高于其它组织(P<0.05),但雌、雄虫触角间的表达量差异不明显。高CO_(2)浓度下LdOR2基因表达量降低,其中,550μL/L和750μL/L条件下雌虫触角中其表达量与对照组相比分别下降21%和29%(P<0.05),雄虫触角中其表达量与对照组相比分别下降了43%和7%(P<0.05)。LdOR2基因沉默后,舞毒蛾雌、雄成虫对丁香酚和顺-3-己烯-1-醇的趋向性减弱,而在高浓度CO_(2)处理条件下,舞毒蛾沉默体对7种挥发物的反应率均有所下降。【结论】舞毒蛾LdOR2在其气味识别过程中发挥重要作用,CO_(2)浓度变化通过调节舞毒蛾LdOR2基因的表达进而影响其对气味的敏感性。 展开更多
关键词 舞毒蛾 LdOR2 克隆表达 CO_(2)浓度 气味受体 RNA干扰 行为反应
下载PDF
基于示范主动采样的行为克隆方法 被引量:1
18
作者 黄文宇 黄圣君 《南京航空航天大学学报》 CAS CSCD 北大核心 2021年第5期766-771,共6页
深度强化学习在学习过程中需要与环境进行大量的交互,训练效率低下。模仿学习通过从专家示范中学习,可以有效地应对这一挑战,但是需要收集大量的专家示范轨迹,在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆... 深度强化学习在学习过程中需要与环境进行大量的交互,训练效率低下。模仿学习通过从专家示范中学习,可以有效地应对这一挑战,但是需要收集大量的专家示范轨迹,在复杂任务中往往导致高昂的示范代价。本文提出一种基于主动学习的行为克隆算法,通过主动挑选示范起始状态来减小示范代价。该方法基于不确定性采样和不相似性采样两种策略,从状态候选集中挑选最有价值的状态作为起始状态,然后向专家查询固定长度的示范轨迹,希望从尽可能少的示范中学习出有效策略。在多个不同任务上的实验表明,本文方法可以用更少的示范轨迹进行行为克隆,降低了强化学习中的专家示范代价。 展开更多
关键词 强化学习 模仿学习 行为克隆 逆强化学习 主动学习
下载PDF
Bidirectional Clone Node Model of Optimizing Performance of Structured P2P Overlay Network 被引量:1
19
作者 Zhang Yu Hao Ying +1 位作者 Ye Xinxin Li Yongzhen 《China Communications》 SCIE CSCD 2012年第4期123-129,共7页
In order to reduce the maintenance cost of structured Peer-to-Peer (P2P),Clone Node Protocol (CNP) based on user behavior is proposed.CNP considers the regularity of user behavior and uses the method of clone node.A B... In order to reduce the maintenance cost of structured Peer-to-Peer (P2P),Clone Node Protocol (CNP) based on user behavior is proposed.CNP considers the regularity of user behavior and uses the method of clone node.A Bidirectional Clone Node Chord model (BCNChord) based on CNP protocol is designed and realized.In BCNChord,Anticlockwise Searching Algorithm,Difference Push Synchronize Algorithm and Optimal Maintenance Algorithm are put forward to increase the performances.In experiments,according to the frequency of nodes,the maintenance cost of BCNChord can be 3.5%~32.5% lower than that of Chord.In the network of 212 nodes,the logic path hop is steady at 6,which is much more prior to 12 of Chord and 10 of CNChord.Theoretical analysis and experimental results show that BCNChord can effectively reduce the maintenance cost of its structure and simultaneously improve the query efficiency up to (1/4)O(logN).BCNChord is more suitable for highly dynamic environment and higher real-time system. 展开更多
关键词 structured P2P user behavior clone node protocol maintenance cost
下载PDF
专家监督的SAC强化学习重载列车运行优化控制 被引量:5
20
作者 杨辉 王禹 +2 位作者 李中奇 付雅婷 谭畅 《控制理论与应用》 EI CAS CSCD 北大核心 2022年第5期799-808,共10页
重载列车是我国大宗商品运输的重要方式,因载重大、车身长、线路复杂等因素导致重载列车的控制变得困难.本文将列车运行过程分为启动牵引、巡航控制、停车制动3个阶段,基于多质点重载列车纵向动力学模型,考虑常用空气制动,利用(SAC)强... 重载列车是我国大宗商品运输的重要方式,因载重大、车身长、线路复杂等因素导致重载列车的控制变得困难.本文将列车运行过程分为启动牵引、巡航控制、停车制动3个阶段,基于多质点重载列车纵向动力学模型,考虑常用空气制动,利用(SAC)强化学习方法,结合循环神经网络对专家经验数据进行行为克隆,并将克隆出的专家策略对强化学习训练进行监督,训练了一种新的智能驾驶操控策略.本文的策略可以高效学习驾驶经验数据,不断从学习中提高目标奖励,得到最优控制策略.仿真结果表明:本文所提的控制策略比未受专家模型监督的强化学习算法更优,奖励提升的周期更快,并能获得更高的奖励,训练出的控制器运行效果更加高效、稳定. 展开更多
关键词 重载列车 强化学习 行为克隆 专家策略
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部