期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
空间索引的混合树结构研究 被引量:12
1
作者 伏玉琛 郭薇 周洞汝 《计算机工程与应用》 CSCD 北大核心 2003年第17期41-42,97,共3页
针对大型的空间数据库和多媒体数据库的应用,R-树索引结构是一种有效的高维数据索引结构,但R树也有其缺点,文章提出了一种基于四叉树和R-树的混合树空间索引结构,研究结果表明:在存储开销上,混合树比R-树略高,但插入、删除、特别是查找... 针对大型的空间数据库和多媒体数据库的应用,R-树索引结构是一种有效的高维数据索引结构,但R树也有其缺点,文章提出了一种基于四叉树和R-树的混合树空间索引结构,研究结果表明:在存储开销上,混合树比R-树略高,但插入、删除、特别是查找的性能得到了显著的提高,且索引量越大,混合树的查找性能越明显优于R-树。 展开更多
关键词 空间数据库 高维索引 混合树
下载PDF
Web GIS的新技术 被引量:13
2
作者 伏玉琛 周洞汝 《计算机工程》 CAS CSCD 北大核心 2004年第3期19-21,共3页
随着网络技术的发展,Web GIS将成为今后GIS应用的发展方向,该文在回顾Web GIS技术的基础上,对目前新出现的两种Web GIS技术:Java Servlet和GML进行了介绍,这两种新技术的出现为Web GIS的应用开辟了新的方向。
关键词 互联网地理信息系统 JAVA SERVLET XML
下载PDF
双导师制应用型IT创新人才培养的探索与实践 被引量:13
3
作者 伏玉琛 朱艳琴 龚声蓉 《计算机教育》 2008年第21期33-36,共4页
本文结合IT产业的需求,从推行双导师制的区域经济背景、双导师制的本科生培养模式、学校导师与企业导师的职能、双导师的选择与管理以及建立适用双导师制的学分制管理制度等多个方面对实施双导师制开展应用创新型IT人才培养模式进行了... 本文结合IT产业的需求,从推行双导师制的区域经济背景、双导师制的本科生培养模式、学校导师与企业导师的职能、双导师的选择与管理以及建立适用双导师制的学分制管理制度等多个方面对实施双导师制开展应用创新型IT人才培养模式进行了探索与实践。 展开更多
关键词 双导师制 应用创新 培养模式 IT人才
下载PDF
虚拟现实GIS核心技术的研究 被引量:4
4
作者 伏玉琛 周洞汝 《计算机应用》 CSCD 北大核心 2003年第7期75-76,79,共3页
数字城市、数字流域是GIS的研究热点,而虚拟现实GIS是实现数字城市、数字流域的手段之一,文中研究了实现基于虚拟现实技术的三维WebGIS的若干核心技术。
关键词 虚拟现实 地理信息系统 WEB GIS
下载PDF
基于组件技术的配电管理AM/FM/GIS系统 被引量:4
5
作者 伏玉琛 申建明 《计算机工程》 CAS CSCD 北大核心 2003年第8期29-31,共3页
讨论了COM组件技术以及基于组件技术的GIS系统的特点,并介绍了基于组件技术设计的配电管理AM/FM/GIS系统—SuperFM 2000。该系统已经在多个供电企业取得了实际应用。
关键词 组件 组件对象模型 自动制图/设施管助地理信息系统
下载PDF
最小状态变元平均奖赏的强化学习方法 被引量:15
6
作者 刘全 傅启明 +2 位作者 龚声蓉 伏玉琛 崔志明 《通信学报》 EI CSCD 北大核心 2011年第1期66-71,共6页
针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的... 针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。 展开更多
关键词 强化学习 平均奖赏 俄罗斯方块 最小状态
下载PDF
一种基于启发式奖赏函数的分层强化学习方法 被引量:11
7
作者 刘全 闫其粹 +2 位作者 伏玉琛 胡道京 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2352-2358,共7页
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还... 针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度. 展开更多
关键词 分层强化学习 试错 启发式奖赏函数 俄罗斯方块 “维数灾”
下载PDF
基于双深度网络的安全深度强化学习方法 被引量:26
8
作者 朱斐 吴文 +1 位作者 伏玉琛 刘全 《计算机学报》 EI CSCD 北大核心 2019年第8期1812-1826,共15页
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近... 深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性. 展开更多
关键词 强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
下载PDF
基于自适应归一化RBF网络的Q-V值函数协同逼近模型 被引量:9
9
作者 刘全 肖飞 +3 位作者 傅启明 伏玉琛 周小科 朱斐 《计算机学报》 EI CSCD 北大核心 2015年第7期1386-1396,共11页
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络... 径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能. 展开更多
关键词 强化学习 函数逼近 径向基函数 灾难性扰动 协同逼近
下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
10
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
下载PDF
一种三角形网格空洞修复算法 被引量:9
11
作者 刘全 杨凯 +1 位作者 伏玉琛 张书奎 《电子学报》 EI CAS CSCD 北大核心 2013年第2期209-213,共5页
无线传感器网络由大量传感器节点组成,在网络初始化时节点随机部署在目标区域中,导致某一区域未被覆盖而形成覆盖空洞.针对目标区域中存在覆盖空洞问题,设计了一种基于三角形网格的无需地理信息的空洞探测算法ATN和空洞修复算法TNR.利用... 无线传感器网络由大量传感器节点组成,在网络初始化时节点随机部署在目标区域中,导致某一区域未被覆盖而形成覆盖空洞.针对目标区域中存在覆盖空洞问题,设计了一种基于三角形网格的无需地理信息的空洞探测算法ATN和空洞修复算法TNR.利用ATN算法检测节点与其邻居形成的三角形网格是否被完全覆盖,TNR算法以ATN算法理论为基础,向三角形网格中添加节点使目标区域完全覆盖.理论与仿真实验分析表明,ANR算法能够探测出目标区域中所有空洞,TNR算法在部署密集的传感网络中能够快速完成空洞修复. 展开更多
关键词 无线传感器网络 覆盖空洞 空洞修复 三角形网格
下载PDF
一种最大置信上界经验采样的深度Q网络方法 被引量:14
12
作者 朱斐 吴文 +1 位作者 刘全 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1694-1705,共12页
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破... 由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性. 展开更多
关键词 强化学习 深度强化学习 最大置信上界 经验回放 深度Q网络
下载PDF
一种高斯过程的带参近似策略迭代算法 被引量:4
13
作者 傅启明 刘全 +2 位作者 伏玉琛 周谊成 于俊 《软件学报》 EI CSCD 北大核心 2013年第11期2676-2686,共11页
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中... 在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利用的平衡问题,加快算法收敛.将该算法用于经典的Mountain Car问题,实验结果表明,该算法收敛速度较快,收敛精度较好. 展开更多
关键词 强化学习 策略迭代 高斯过程 贝叶斯推理 函数近似
下载PDF
一种解决连续空间问题的真实在线自然梯度AC算法 被引量:5
14
作者 朱斐 朱海军 +2 位作者 刘全 陈冬火 伏玉琛 《软件学报》 EI CSCD 北大核心 2018年第2期267-282,共16页
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架... 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性. 展开更多
关键词 策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法
下载PDF
基于可中断Option的在线分层强化学习方法 被引量:4
15
作者 朱斐 许志鹏 +2 位作者 刘全 伏玉琛 王辉 《通信学报》 EI CSCD 北大核心 2016年第6期65-74,共10页
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提... 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。 展开更多
关键词 大数据 强化学习 分层强化学习 OPTION 在线学习
下载PDF
一种基于集合符号的自动推理扩展方法 被引量:4
16
作者 刘全 伏玉琛 +3 位作者 孙吉贵 崔志明 龚声蓉 凌兴宏 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1317-1323,共7页
在多值逻辑Tableau推理的基础上,提出了一种基于集合符号的自动推理扩展方法.将符号集合作为真值,减少了Tableau的推理分枝,并可以将适合经典逻辑的推理方法和策略应用于其中,使得非经典逻辑推理经典化.使用SWI-PROLOG语言设计实现了基... 在多值逻辑Tableau推理的基础上,提出了一种基于集合符号的自动推理扩展方法.将符号集合作为真值,减少了Tableau的推理分枝,并可以将适合经典逻辑的推理方法和策略应用于其中,使得非经典逻辑推理经典化.使用SWI-PROLOG语言设计实现了基于集合符号的自动推理系统,在系统中使用集合符号方法,只需要在规则库中增加推理规则,即可生成规则程序,系统本身不需要任何的修改,因此一些适合于经典逻辑的推理方法和技巧就可以很容易地应用到多值逻辑、模态逻辑、直觉逻辑等非经典逻辑,也可以进一步推广到无穷值逻辑和含模糊量词(如T-算子和S-算子)的逻辑中,对于无穷值逻辑和模糊逻辑的Tableau方法研究具有一定的借鉴作用.对TPTP中的900个逻辑问题进行了证明,实验结果表明,系统在时间和空间上效率都是较高的. 展开更多
关键词 集合符号 自动推理 TABLEAU 经典逻辑 非经典逻辑
下载PDF
一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3
17
作者 刘全 李瑾 +2 位作者 傅启明 崔志明 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练... 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 展开更多
关键词 多目标 自适应Sarsa(λ) 最大集合期望损失 强化学习 机器人足球
下载PDF
一种不稳定环境下的策略搜索及迁移方法 被引量:3
18
作者 朱斐 刘全 +3 位作者 傅启明 陈冬火 王辉 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2017年第2期257-266,共10页
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策... 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 展开更多
关键词 强化学习 策略搜索 策略迁移 不稳定环境 公式集
下载PDF
第三方物流信息系统的数据集成研究 被引量:4
19
作者 王岩 凌兴宏 +1 位作者 葛娟 伏玉琛 《计算机应用与软件》 CSCD 2009年第1期159-160,180,共3页
针对第三方物流信息系统中异构数据源的特点,对如何实现数据集成进行研究,给出了物流数据集成的解决方案。该方案以数据仓库和联邦技术为核心,并结合其它相关技术共同实现,对推动物流信息化的建设和发展有一定的研究价值。
关键词 第三方物流 数据集成 联邦数据库 数据仓库
下载PDF
基于改进相似度传播算法的本体匹配 被引量:1
20
作者 张悦 凌兴宏 +1 位作者 姚望舒 伏玉琛 《计算机应用》 CSCD 北大核心 2011年第9期2432-2435,共4页
为解决本体异构、实现不同本体应用程序间互操作以及数据集成,提出一种基于RDF图的改进相似度传播匹配算法。首先通过WordNet发现初始相似对种子,经过预处理把本体表示成RDF三元组形式,针对RDF图的特点,将相似度传播的条件扩展到三元组... 为解决本体异构、实现不同本体应用程序间互操作以及数据集成,提出一种基于RDF图的改进相似度传播匹配算法。首先通过WordNet发现初始相似对种子,经过预处理把本体表示成RDF三元组形式,针对RDF图的特点,将相似度传播的条件扩展到三元组中,发现可能相似对;然后采用综合元素特征的方法计算相似度。相似度传播、发现可能相似对种子、相似度计算是一个循环迭代的过程,直到满足收敛条件。实验表明了该算法的有效性,并在时间性能上也有所提高。 展开更多
关键词 本体 RDF图 本体匹配 相似度传播 WORDNET
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部