期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
基于多线程并行强化学习的建筑节能方法 被引量:1
1
作者 陈建平 康怡怡 +3 位作者 胡龄爻 陆悠 吴宏杰 傅启明 《计算机工程与应用》 CSCD 北大核心 2019年第15期219-227,共9页
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agen... 提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。 展开更多
关键词 强化学习 并行强化学习 经验回放 多线程技术 建筑节能
下载PDF
基于事件驱动深度强化学习的建筑热舒适控制
2
作者 李竹 傅启明 +3 位作者 丁正凯 刘璐 张颖 陈建平 《计算机应用研究》 CSCD 北大核心 2024年第2期527-532,539,共7页
住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driv... 住宅暖通空调系统通常耗用大量能源,同时也极大地影响居住者的热舒适性。目前,强化学习广泛应用于优化暖通空调系统,然而这一方法需要投入大量时间和数据资源。为了解决该问题,提出了一个新的基于事件驱动的马尔可夫决策过程(event-driven Markov decision process,ED-MDP)框架,并在此基础上,提出了基于事件驱动的深度确定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通过事件触发优化控制,结合强化学习算法求解最优控制策略。实验结果显示,与基准方法相比,ED-DDPG在提升学习速度和减少决策频率方面表现出色,并在节能和维持热舒适方面取得了显著成果。经过实验验证,该方法在优化住宅暖通空调控制方面展现出强大的鲁棒性和适应性。 展开更多
关键词 强化学习 事件驱动 暖通空调 住宅建筑 热舒适
下载PDF
一种基于迁移深度强化学习的建筑能耗预测方法 被引量:7
3
作者 傅启明 吴少波 +3 位作者 戴大东 杨正霞 陈建平 吴宏杰 《计算机应用研究》 CSCD 北大核心 2020年第S01期92-94,共3页
建筑能耗在我国总能耗中占比超过了35%。建筑能耗预测是能源科学管理、高效节能、低碳绿色发展的重要课题。但建筑能耗数据的成因复杂、独立同分布性弱、目标域样本不足,导致现有预测模型泛化性不足。由此提出了一种基于迁移深度强化学... 建筑能耗在我国总能耗中占比超过了35%。建筑能耗预测是能源科学管理、高效节能、低碳绿色发展的重要课题。但建筑能耗数据的成因复杂、独立同分布性弱、目标域样本不足,导致现有预测模型泛化性不足。由此提出了一种基于迁移深度强化学习的建筑能耗预测方法,充分利用隐藏层结构模型迁移共享建筑能耗的有用信息,通过堆叠去噪自动编码器挖掘建筑能耗中深层特征,结合强化学习Q-Learning方法进行建筑能耗建模。为了验证方法性能,采用了美国加利福尼亚州弗里蒙特的零售建筑真实能耗数据,与Q-Learning、ADE-BPNN、BP-Adaboost进行了比较,所提方法在MSE、RMSE、MAE、MAPE方面分别比上述三种方法的平均值降低了25.9%、13.1%、23.7%、19.3%,有效提高了建筑能耗预测的精度。 展开更多
关键词 特征迁移 堆叠去噪自动编码器 深度强化学习 建筑能耗预测
下载PDF
基于边缘计算的建筑设备状态感知模型与应用 被引量:4
4
作者 吴宏杰 沈华祥 +3 位作者 凌华靖 傅启明 陆卫忠 付保川 《计算机工程与应用》 CSCD 北大核心 2019年第18期263-270,共8页
随着智能化建筑数量的剧增与智能化水平的提高,建筑智能设备状态感知成为了关系到社会公共安全方面重要问题之一。目前,建筑设备感知系统大多基于服务器集中计算架构,存在存储数据量大、通信带宽要求高、节点自主性不够等问题,往往容易... 随着智能化建筑数量的剧增与智能化水平的提高,建筑智能设备状态感知成为了关系到社会公共安全方面重要问题之一。目前,建筑设备感知系统大多基于服务器集中计算架构,存在存储数据量大、通信带宽要求高、节点自主性不够等问题,往往容易造成建筑设备感知实时性不足、网络成本高的问题。由此,提出一种基于边缘计算的建筑设备状态感知模型,设计了边缘状态感知与缓存算法,建立了一组边缘通信与状态感知协议,形成了边缘隐私数据信任与安全机制,同时,引入基于边缘数据的智能决策技术,从而不仅缓解了中心服务器的计算与存储压力,而且有效提升了整个系统的自主感知能力、安全性与健壮性。最后,依托该模型实现了一个运维示范系统,在S城市管理中进行了应用。 展开更多
关键词 边缘计算 建筑设备 状态感知
下载PDF
基于层次分析法的屋顶绿化智慧管理系统 被引量:2
5
作者 罗恒 邹优敏 +3 位作者 陈扬 陆家欣 郭爱煌 李慧 《计算机测量与控制》 2017年第11期269-272,279,共5页
快速的城市化进程使得当前城市普遍面临绿地面积减少、抗自然灾害能力下降等问题;针对城市资源与需求的矛盾,对现有屋顶绿化自动管理系统进行了研究,设计了一种基于无线传感器网络的屋顶绿化智慧管理系统;通过实时获取光照强度等植物生... 快速的城市化进程使得当前城市普遍面临绿地面积减少、抗自然灾害能力下降等问题;针对城市资源与需求的矛盾,对现有屋顶绿化自动管理系统进行了研究,设计了一种基于无线传感器网络的屋顶绿化智慧管理系统;通过实时获取光照强度等植物生长环境参数;使用层次分析法对植物生长环境进行评估与分析,提出了量化环境适宜度指标,通过反馈控制系统,实现屋顶绿化植物的智慧管理;实验结果表明,与传统屋顶绿化方法相比较,系统可以提高24%的植物存活率,同时可实现屋顶降温20%的目标;系统具有成本低、自适应管理等优点,可以广泛应用于当前我国的城市屋顶绿化中,也可以为学界和业界的相关研究提供参考。 展开更多
关键词 屋顶绿化 层次分析法 智能系统 无线传感器网络
下载PDF
基于LightGBM-LSTM组合模型的商业建筑能耗预测 被引量:4
6
作者 罗恒 刘杭 《计算机应用与软件》 北大核心 2022年第11期36-42,65,共8页
准确预测商业建筑能耗使用对于能源节约具有十分重要的意义。在分析基于决策树算法的模型和长短期记忆网络(LSTM)特性的基础上,依据某商业建筑历史能耗序列数据,构建一种预测短期能耗的LightGBM-LSTM模型。LightGBM对多特征数据处理优秀... 准确预测商业建筑能耗使用对于能源节约具有十分重要的意义。在分析基于决策树算法的模型和长短期记忆网络(LSTM)特性的基础上,依据某商业建筑历史能耗序列数据,构建一种预测短期能耗的LightGBM-LSTM模型。LightGBM对多特征数据处理优秀,它是对梯度提升树(GBDT)的优化策略,使用了互斥特征打包(MEF)算法进行特征合并。LSTM对时间序列数据适用性高。组合模型结合两种模型特点,通过权重组合预测数据。将组合模型与LightGBM、LSTM单项模型、其他常用模型做对比实验,实验结果验证了LightGBM-LSTM模型在建筑能耗预测中具有更高的准确性。 展开更多
关键词 LightGBM 长短期记忆网络 建筑能耗预测 GBDT
下载PDF
基于人员位置的室内智慧照明系统设计 被引量:3
7
作者 邹优敏 孙玮 +3 位作者 郭爱煌 罗恒 李慧 刘垒垒 《计算机测量与控制》 2018年第7期157-160,164,共5页
统计结果表明,现代人类滞留室内的时间超过生命周期的90%,由此产生的室内照明能耗已经成为建筑能耗的重要组成部分;针对当前室内照明系统能源浪费较大、误判率较高、控制方式复杂度较高等问题,设计了一种基于人员位置的室内智慧照明系统... 统计结果表明,现代人类滞留室内的时间超过生命周期的90%,由此产生的室内照明能耗已经成为建筑能耗的重要组成部分;针对当前室内照明系统能源浪费较大、误判率较高、控制方式复杂度较高等问题,设计了一种基于人员位置的室内智慧照明系统;通过动态优化复杂环境下电磁波传播模型,实现室内人员的精确定位,动态调整照明系统开/关时间,达到节能的目的;实验结果表明,系统相较于现有的声控照明系统,可以提高15%的室内照明能效,且误判率低于2%。 展开更多
关键词 建筑节能 人员定位 蓝牙 电磁波 照明控制 差错率
下载PDF
改进YOLOv4的轻量级遥感图像建筑物检测模型 被引量:6
8
作者 丁飞 石颉 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2023年第10期213-220,共8页
针对现有建筑物检测模型检测精度低下,模型体积较大,导致遥感图像检测速度和精度无法平衡,不利于后期部署等问题,提出一种基于YOLOv4优化的轻量级遥感图像建筑物检测模型。利用轻量化网络GhostNet替换CSP DarkNet53进行特征提取;借鉴稠... 针对现有建筑物检测模型检测精度低下,模型体积较大,导致遥感图像检测速度和精度无法平衡,不利于后期部署等问题,提出一种基于YOLOv4优化的轻量级遥感图像建筑物检测模型。利用轻量化网络GhostNet替换CSP DarkNet53进行特征提取;借鉴稠密连接思想,提出了Dense-PANet特征融合模块;将ECA注意力机制引入Ghost模块,替换特征融合颈部网络的传统卷积。实验结果表明,提出的模型与YOLOv4相比,牺牲少量检测速度,但是平均精度提高了0.96个百分点,召回率提升了1.08个百分点,模型体积降低了71.39%,浮点计算量降低了76.60%,能有效满足遥感图像建筑物检测的需求。 展开更多
关键词 建筑物检测 YOLOv4 轻量级 特征融合 ECA注意力机制
下载PDF
基于分类DQN的建筑能耗预测 被引量:1
9
作者 李可 傅启明 +3 位作者 陈建平 陆悠 王蕴哲 吴宏杰 《计算机系统应用》 2022年第10期156-165,共10页
本文提出一种可用于建筑能耗预测的基于KNN分类器的DQN算法——K-DQN.其在利用马尔科夫决策过程对建筑能耗进行建模时,针对大规模动作空间问题,将原始动作空间缩减进而提高算法的预测精度及收敛速率.首先,K-DQN将原始动作空间平均划分... 本文提出一种可用于建筑能耗预测的基于KNN分类器的DQN算法——K-DQN.其在利用马尔科夫决策过程对建筑能耗进行建模时,针对大规模动作空间问题,将原始动作空间缩减进而提高算法的预测精度及收敛速率.首先,K-DQN将原始动作空间平均划分为多个子动作空间,并将每个子动作空间对应的状态分为一类,以此构建KNN分类器.其次,利用KNN分类器,将不同类别相同次序动作进行统一表示,以实现动作空间的缩减.最后,K-DQN将状态类别概率与原始状态相结合,在构建新状态的同时,帮助确定缩减动作空间内每一动作的具体含义,从而确保算法的收敛性.实验结果表明,文章提出的K-DQN算法可以获得优于DDPG、DQN算法的能耗预测精度,且降低了网络训练时间. 展开更多
关键词 分类 能耗预测 动作空间 深度强化学习
下载PDF
自适应序列生成的建筑能耗预测 被引量:1
10
作者 王悦 陈建平 +2 位作者 傅启明 吴宏杰 陆悠 《计算机系统应用》 2021年第11期155-163,共9页
提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks, ReGAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN (Generative Adversarial Nets)中的生成器以及判别器分别构建... 提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks, ReGAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN (Generative Adversarial Nets)中的生成器以及判别器分别构建为强化学习中Agent (生成器)以及奖赏函数.在训练过程中,将当前的真实能耗序列作为Agent的输入状态,构建一组固定长度的生成序列,结合判别器及蒙特卡洛搜索方法进一步构建当前序列的奖赏函数,并以此作为真实样本序列后续第一个能耗值的奖赏.在此基础之上,构建关于奖赏的目标函数,并求解最优参数.最后使用所提算法对唐宁街综合大楼公开的建筑能耗数据进行预测试验,实验结果表明,所提算法比多层感知机、门控循环神经网络和卷积神经网络具有更高的预测精度. 展开更多
关键词 生成对抗网络 强化学习 建筑能耗预测 策略梯度 人工智能
下载PDF
基于自监督网络的DDPG算法的建筑能耗控制 被引量:1
11
作者 殷雨竹 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机系统应用》 2022年第2期161-167,共7页
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,... 针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏,以解决奖赏稀疏问题.然后,采用数据驱动的方法训练建筑能耗模型,构建天气数据作为输入、能耗数据作为输出.最后,利用基于自监督网络的DDPG方法求解最优控制策略,并以此设定空气处理装置(air handling unit,AHU)的最优排放温度,减少设备能耗.实验结果表明,该方法能够在保持建筑环境舒适的基础上,实现较好的节能效果. 展开更多
关键词 强化学习 自监督网络 DDPG算法 能耗控制
下载PDF
改进yolov3的遥感图像建筑物检测方法 被引量:1
12
作者 袁晨翔 石颉 +1 位作者 吴宏杰 孔维相 《计算机仿真》 北大核心 2023年第11期185-191,共7页
针对遥感图像中小型建筑物检测率低的问题,提出一种改进yolov3的小型建筑物检测算法。首先,利用k-means++聚类分析数据集上的先验框尺寸信息,筛选出最优的Anchor Box,使定位更加精准,降低网络损失。其次,在yolov3网络结构的基础上,将第1... 针对遥感图像中小型建筑物检测率低的问题,提出一种改进yolov3的小型建筑物检测算法。首先,利用k-means++聚类分析数据集上的先验框尺寸信息,筛选出最优的Anchor Box,使定位更加精准,降低网络损失。其次,在yolov3网络结构的基础上,将第11层浅层特征与网络深层特征融合,生成一个尺度为104×104的新特征图层,用于提取更多小型建筑目标特征。再次,加入Coordinate Attention机制,用于提高网络对图像中有用信息的敏感度。最后,加入CIOU边框回归损失,为边界框提供移动方向以及更准确的位置信息,加快模型收敛。将上述方法应用于文中数据集,结果表明,改进后的yolov3平均检测速度为23.39帧/s,mAP为93.9%,在牺牲部分检测速度的情况下,有效地提升了小型建筑物检测的精度。 展开更多
关键词 遥感图像 深度学习 注意力机制 建筑物
下载PDF
空调实验教学虚拟仿真平台的建设与应用
13
作者 刘润东 王俊淇 +1 位作者 孙志高 程向明 《中国现代教育装备》 2021年第19期28-31,共4页
针对现有空调实验教学存在的问题,利用虚拟仿真技术,MatLab,Envision for BACtalk软件及Visual Logic图形化编程等多项技术设计开发了空调实验教学虚拟仿真平台。该平台主要包括空调系统运行控制的仿真模拟和空调设备部件的虚拟拆装模... 针对现有空调实验教学存在的问题,利用虚拟仿真技术,MatLab,Envision for BACtalk软件及Visual Logic图形化编程等多项技术设计开发了空调实验教学虚拟仿真平台。该平台主要包括空调系统运行控制的仿真模拟和空调设备部件的虚拟拆装模拟。通过实际教学应用,验证了平台虚拟仿真数学模型的可靠性,学生使用该平台取得的实验教学效果显著,学生的创新实践能力得以提高。 展开更多
关键词 虚拟仿真 实验平台 实践教学
下载PDF
化学物质诱导疾病关系抽取:基于证据聚焦的图推理方法
14
作者 周雪阳 傅启明 +2 位作者 陈建平 陆悠 王蕴哲 《计算机科学》 CSCD 北大核心 2024年第10期351-361,共11页
针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet... 针对现有方法在挖掘化学物质与疾病之间的相互作用关系时存在过多地关注全局信息而忽略少量的证据线索和局部提及交互的问题,提出了一种基于证据聚焦的提及水平文档级关系抽取方法(Evidence Focused Mention U-shaped Network,EF-MUnet)。该方法首先基于上下文感知策略建模提及特征,并利用二维卷积捕获邻近提及之间的局部交互;其次为避免无关上下文的干扰,提出两种证据聚焦策略ATT-EF和RL-EF,前者将相似度作为证据线索的衡量指标,后者基于强化学习利用延迟反馈无监督地学习最优证据提取策略;最后使用U-net网络捕获实体水平的全局特征,充分挖掘语义关系。实验结果表明,与已有方法相比,EF-MUnet在生物医学数据集CDR上的F1评价指标提升了9.7%,并且对于句间关系的抽取更具有优势。此外,在抽取药物突变相互作用的数据集DMI上,EF-MUnet也取得了最高98.6%的准确率,证明了它是一种有效的生物医学关系抽取方法并具有较好的泛化能力。 展开更多
关键词 关系抽取 证据聚焦 强化学习 自注意力机制 生物医学
下载PDF
基于Attention-CNN的振动信号电机转子断条识别
15
作者 申海锋 石颉 +1 位作者 杜国庆 吴宏杰 《电气工程学报》 CSCD 北大核心 2024年第2期9-15,共7页
针对基于振动信号的转子断条诊断技术依赖于人工特征选择,泛化能力差,以及常规卷积神经网络(Convolution neural network,CNN)模型在对时序信号自动特征提取时忽略序列信息的问题,利用Attention机制对局部特征在整体表达时的度量能力,... 针对基于振动信号的转子断条诊断技术依赖于人工特征选择,泛化能力差,以及常规卷积神经网络(Convolution neural network,CNN)模型在对时序信号自动特征提取时忽略序列信息的问题,利用Attention机制对局部特征在整体表达时的度量能力,提出了一种Attention-CNN网络模型。首先通过Attention在原始信号上分配注意力,其次结合CNN进行特征提取构建网络,然后利用粒子群优化算法(Particle swarm optimization,PSO)进行网络超参数寻优,训练转子断条识别模型,最后从整体和局部两个方面进行模型评价。试验结果表明,所提出的识别模型能够达到传统诊断水平,且泛化能力高于现有方法,更适用于通过振动信号进行电机转子断条识别。 展开更多
关键词 Attention-CNN 振动信号 转子断条 泛化能力
下载PDF
基于改进模拟退火算法的搬运机器人路径规划 被引量:29
16
作者 陶重犇 雷祝兵 +2 位作者 李春光 孙云飞 周海冰 《计算机测量与控制》 2018年第7期182-185,共4页
针对传统搬运机器人路径规划方法易陷入局部最优解,以及缺乏对环境普遍适应性的问题;应用栅格法创建搬运机器人工作环境模型,以一种建立搜索禁忌表的改进贪心算法为基础,通过加入遗传算法中"优胜劣汰"的思想,重新定义了模拟... 针对传统搬运机器人路径规划方法易陷入局部最优解,以及缺乏对环境普遍适应性的问题;应用栅格法创建搬运机器人工作环境模型,以一种建立搜索禁忌表的改进贪心算法为基础,通过加入遗传算法中"优胜劣汰"的思想,重新定义了模拟退火系数和栅格系数,提出了一种可以解决贪心算法局部收敛问题的改进模拟退火算法;最后通过仿真和具体实物实验,验证了该算法具有的可行性以及对于不同环境的适应性,能够有效地提高搬运机器人路径规划的质量。 展开更多
关键词 栅格法 贪心算法 模拟退火 搬运机器人 路径规划
下载PDF
一种基于生成对抗网络的强化学习算法 被引量:11
17
作者 陈建平 邹锋 +3 位作者 刘全 吴宏杰 胡伏原 傅启明 《计算机科学》 CSCD 北大核心 2019年第10期265-272,共8页
针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用... 针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,再结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的算法与DQN算法应用于OpenAI Gym中的CartPole问题和MountainCar问题。实验结果表明,与DQN算法相比,所提算法可以有效地加快训练初期的学习速度,且收敛时间缩短了15%。 展开更多
关键词 强化学习 深度学习 经验样本 生成对抗网络
下载PDF
强化学习与生成式对抗网络结合方法研究进展 被引量:11
18
作者 吴宏杰 戴大东 +2 位作者 傅启明 陈建平 陆卫忠 《计算机工程与应用》 CSCD 北大核心 2019年第10期36-44,共9页
强化学习和生成式对抗网络是近年来人工智能领域的两个热门主题,在众多领域表现非常出色。近期出现较多关于两者结合的工作与报道,将强化学习交互式学习的优点与生成式对抗网络的启发自博弈思想相互融合。对两者结合的最新进展进行了梳... 强化学习和生成式对抗网络是近年来人工智能领域的两个热门主题,在众多领域表现非常出色。近期出现较多关于两者结合的工作与报道,将强化学习交互式学习的优点与生成式对抗网络的启发自博弈思想相互融合。对两者结合的最新进展进行了梳理、比较与实验分析。对强化学习与生成式对抗网络的理论进行了概述;从强化学习改进生成式对抗网络、生成式对抗网络改进强化学习两个研究方向进行了阐述与比较,通过实验方式分析了这些方法在自然语言、机器控制领域的应用情况;展望了可能的发展趋势。 展开更多
关键词 强化学习 生成式对抗网络 深度学习 人工智能
下载PDF
增强型深度确定策略梯度算法 被引量:8
19
作者 陈建平 何超 +3 位作者 刘全 吴宏杰 胡伏原 傅启明 《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。 展开更多
关键词 深度强化学习 样本排序 自模拟度量 时间差分误差
下载PDF
基于双目视觉的六旋翼无人机立体匹配算法 被引量:7
20
作者 陶重犇 乔荔 +2 位作者 孙云飞 李春光 戴欢 《激光与红外》 CAS CSCD 北大核心 2018年第9期1181-1187,共7页
针对六旋翼无人机双目视觉成像时,经双目融合后反馈的图像噪点过多,以及图像精度不够理想的问题,提出了一种在匹配过程中融入全局差错能量最小化的区域立体视觉匹配算法。由于视差的求解是立体匹配过程中最重要的环节,因此本文利用最小... 针对六旋翼无人机双目视觉成像时,经双目融合后反馈的图像噪点过多,以及图像精度不够理想的问题,提出了一种在匹配过程中融入全局差错能量最小化的区域立体视觉匹配算法。由于视差的求解是立体匹配过程中最重要的环节,因此本文利用最小化差错能量矩阵求解最优视差的原理。通过提高立体视觉的视差精度,从而减少视觉融合过程中因数据问题产生的噪声干扰,最终提高了对场景信息三维重构的准确度。通过分别在室内外的仿真实验与真实环境重构实验,验证了本文提出的基于双目视觉的六旋翼无人机立体匹配算法的有效性与可靠性。 展开更多
关键词 六旋翼无人机 双目视觉 立体匹配 最优视差 三维重构
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部