期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
概率图模型的变分近似推理
1
作者 黎海恩 刘建伟 罗雄麟 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第S1期6-11,共6页
介绍变分近似推理算法的最新研究进展,根据算法的方法论把变分近似推理分4类,包括环信任传播算法、期望传播算法、结构变分算法和线性规划松弛算法。分别描述这4种算法的特点与最新研究,给出变分优化问题和不动点方程。最后指出未来研... 介绍变分近似推理算法的最新研究进展,根据算法的方法论把变分近似推理分4类,包括环信任传播算法、期望传播算法、结构变分算法和线性规划松弛算法。分别描述这4种算法的特点与最新研究,给出变分优化问题和不动点方程。最后指出未来研究方向和有待解决的问题。 展开更多
关键词 概率图模型 变分近似推理 环信任传播 期望传播 结构 线性规划松弛
下载PDF
基于贝叶斯网络的概率图模型变分近似推理研究 被引量:2
2
作者 何林海 《山东农业工程学院学报》 2019年第4期26-27,共2页
概率图模型利用了概率论和图论的关键内容,为解决多变量关系中所存在的依赖性与复杂性提供了完整的解决路径。在语言处理、计算机视觉、计算生物学等众多领域得到广泛应用。本文以贝叶斯网络作为核心研究方向,就概率图模型变分近似推理... 概率图模型利用了概率论和图论的关键内容,为解决多变量关系中所存在的依赖性与复杂性提供了完整的解决路径。在语言处理、计算机视觉、计算生物学等众多领域得到广泛应用。本文以贝叶斯网络作为核心研究方向,就概率图模型变分近似推理的全局性、收敛性、单调性等诸多特征进行辩证分析。最终论述了基于贝叶斯网络的概率图模型变分近似推理算法的应用范畴和优势,以便为相关研究提供理论参考。 展开更多
关键词 贝叶斯网络 概率图模型 变分近似推理
下载PDF
自动驾驶奖励函数贝叶斯逆强化学习方法
3
作者 曾迪 郑玲 +1 位作者 李以农 杨显通 《机械工程学报》 EI CAS CSCD 北大核心 2024年第10期245-260,共16页
研究具有广泛场景适应性的自动驾驶汽车的驾驶策略,对实现安全、舒适、和谐的自动驾驶至关重要。深度强化学习以其优异的函数逼近和表示能力,在驾驶策略学习方面展示了巨大潜力。但设计适用于各种复杂驾驶场景的奖励函数极具挑战性,驾... 研究具有广泛场景适应性的自动驾驶汽车的驾驶策略,对实现安全、舒适、和谐的自动驾驶至关重要。深度强化学习以其优异的函数逼近和表示能力,在驾驶策略学习方面展示了巨大潜力。但设计适用于各种复杂驾驶场景的奖励函数极具挑战性,驾驶策略的场景泛化能力亟待提升。针对复杂驾驶场景下的奖励函数难以设计问题,考虑人类驾驶行为偏好,建立人类驾驶策略的近似似然函数模型,通过基于曲线插值的动作空间稀疏采样和近似变分推理方法,学习奖励函数的近似后验分布,建立基于贝叶斯神经网络的奖励函数模型。针对神经网络奖励函数不确定性产生的错误奖励,采用蒙特卡洛方法,对贝叶斯神经网络奖励函数不确定性进行度量,在最大化奖励函数的同时,对认知不确定性进行适当惩罚,提出基于奖励函数后验分布的不确定性认知型类人驾驶策略训练方法。采用NGSIM US-101高速公路数据集和nuPlan城市道路数据集,对所提出方法的有效性进行测试和验证。研究结果表明,基于贝叶斯逆强化学习的近似变分奖励学习方法,克服基于人工构造状态特征线性组合的奖励函数性能不佳的问题,实现奖励函数不确定性的度量,提升奖励函数对高维非线性问题的泛化能力,其学习的奖励函数及训练稳定性明显优于主流逆强化学习方法。在奖励函数中适当引入不确定性的惩罚,有利于提升驾驶策略的类人性、安全性及其训练的稳定性,提出的不确定性认知型类人驾驶策略显著优于行为克隆学习的策略和基于最大熵逆强化学习的策略。 展开更多
关键词 智能汽车 自动驾驶 近似奖励学习 近似推理 贝叶斯逆强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部