-
题名强化学习稀疏奖励算法研究——理论与实验
被引量:18
- 1
-
-
作者
杨瑞
严江鹏
李秀
-
机构
清华大学自动化系
清华大学深圳国际研究生院
-
出处
《智能系统学报》
CSCD
北大核心
2020年第5期888-899,共12页
-
基金
国家自然科学基金项目(41876098).
-
文摘
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。
-
关键词
强化学习
深度强化学习
机器学习
稀疏奖励
神经网络
人工智能
深度学习
-
Keywords
reinforcement learning
deep reinforcement learning
machine learning
sparse reward
neural networks
artificial intelligence
deep learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名深度医学图像配准研究进展:迈向无监督学习
被引量:7
- 2
-
-
作者
马露凡
罗凤
严江鹏
徐哲
罗捷
李秀
-
机构
清华大学深圳国际研究生院
哈佛医学院
-
出处
《中国图象图形学报》
CSCD
北大核心
2021年第9期2037-2057,共21页
-
基金
国家自然科学基金项目(41876098)
清华大学深圳国际研究生院海外科研合作基金项目(HW2018008)。
-
文摘
在疾病诊断、手术引导及放射性治疗等图像辅助诊疗场景中,将不同时间、不同模态或不同设备的图像通过合理的空间变换进行配准是必要的处理流程之一。随着深度学习的快速发展,基于深度学习的医学图像配准研究以其耗时短、精度高的优势吸引了研究者的广泛关注。本文全面整理了2015—2019年深度医学图像配准方向的论文,系统地分析了深度医学图像配准领域的最新研究进展,展现了深度配准算法研究从迭代优化到一步预测、从有监督学习到无监督学习的总体发展趋势。具体来说,本文在界定深度医学图像配准问题和介绍配准研究分类方法的基础上,以相关算法的网络训练过程中所使用的监督信息多少作为分类标准,将深度医学图像配准划分为全监督、双监督与弱监督、无监督医学图像配准方法。全监督配准方法通过采用随机变换、传统算法和模型生成等方式获取近似的金标准作为监督信息;双监督、无监督配准方法通过引入图像相似度损失、标签相似度损失等其他监督信息以降低对金标准的依赖;无监督配准方法则完全消除对标注数据的需要,仅使用图像相似度损失和正则化损失监督网络训练。目前,无监督医学图像算法已经成为医学图像配准领域的研究重点,在无需获得代价高昂的标注信息下就能够取得与有监督和传统方法相当甚至更高的配准精度。在此基础上,本文进一步讨论了医学图像配准研究后续可能的4个未来挑战,希望能够为更高精度、更高效率的深度医学图像配准算法的研究提供方向,并推动深度医学图像配准技术在临床诊疗中落地应用。
-
关键词
医学图像配准
深度学习(DL)
全监督学习
双监督学习
弱监督学习
无监督学习
-
Keywords
medical image registration
deep learning(DL)
full supervised learning
dual supervised learning
weakly supervised learning
unsupervised learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-