期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
“软评论”的“硬”着陆——以《南方都市报》的“街谈”栏目为例
1
作者 宋立民 《湛江师范学院学报》 2007年第5期119-122,共4页
《南方都市报》"街谈"栏目的基调和表现手法与西方新闻界的"软评论"类似,多采用符合普通百姓接受心理和接受能力的"软性"表达,现身说法,浅显易懂,平易近人。从评论角色上看,评论人往往以当事人的姿态出现... 《南方都市报》"街谈"栏目的基调和表现手法与西方新闻界的"软评论"类似,多采用符合普通百姓接受心理和接受能力的"软性"表达,现身说法,浅显易懂,平易近人。从评论角色上看,评论人往往以当事人的姿态出现,给人一种广播评论的现场感。从评论语气上看,此类评论多是"姑妄言之",侃侃而谈,点到为止。从评论结论上看,作者的立场暗含在对于事件的叙述之中,甚至不做定论。 展开更多
关键词 软评论 评论角色 评论语气 评论结论
下载PDF
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:2
2
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 行动-评论者算法
下载PDF
社交时代自媒体“专业评论+软广告”模式初探——基于“杨毅侃球”微信公众平台的考察 被引量:2
3
作者 王朴 《新闻研究导刊》 2018年第12期105-105,共1页
社交时代,自媒体软广告逐步成为商家的常用手段。杨毅创办的自媒体"杨毅侃球"微信公众平台,依托其专业素养和媒介影响力,在开展网络体育评论的同时,逐步开启了"专业评论+软广告"的营销模式。针对以"杨毅侃球&q... 社交时代,自媒体软广告逐步成为商家的常用手段。杨毅创办的自媒体"杨毅侃球"微信公众平台,依托其专业素养和媒介影响力,在开展网络体育评论的同时,逐步开启了"专业评论+软广告"的营销模式。针对以"杨毅侃球"为代表的自媒体"专业评论+软广告"模式存在的问题,我们可以采取措施予以改进和完善。 展开更多
关键词 自媒体 “专业评论+广告” 杨毅侃球
下载PDF
基于SAC的炼厂原油储运调度方法
4
作者 马楠 李洪奇 +1 位作者 刘华林 杨磊 《化工进展》 EI CAS CSCD 北大核心 2024年第3期1167-1177,共11页
目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法... 目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法。该算法首先将炼厂原油资源调度问题转换为马尔可夫决策过程,其次提出了一种基于软演员-评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定调度过程中的传输目标等离散决策以及传输速度等连续决策。结果表明,算法学习到的策略可行性较好,与基线算法相比,油轮在港时间、调度方案事件数量、加工计划执行率等重要指标方面均得到了较好的效果,在求解时间方面大幅提升至毫秒级,并有效控制随机事件对整体决策的影响范围。该算法可为沿海炼厂原油储运调度快速决策提供新的思路。 展开更多
关键词 炼厂原油储运 资源调度 深度强化学习 演员-评论
下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法
5
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 演员-评论
下载PDF
基于CQL-SAC的自动驾驶防撞决策方法
6
作者 刘玉辉 于镝 《北京信息科技大学学报(自然科学版)》 2024年第3期16-24,共9页
针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SA... 针对深度强化学习在自动驾驶任务中存在价值函数过估计、学习效率低、安全性差等问题,提出了一种自动驾驶防撞决策方法。首先,将保守Q学习(conservative Q-learning, CQL)算法与软行动评论(soft actor-critic, SAC)算法融合,提出CQL-SAC算法,以缓解价值过估计问题。然后,在算法训练过程中引入专家经验,实现算法快速收敛,以解决学习效率低的问题。最后,利用防撞模块对CQL-SAC算法输出的动作进行安全检查和矫正,避免车辆碰撞。在基于高速公路的仿真场景下对方法有效性进行验证。仿真结果表明,在训练阶段,CQL-SAC算法相比SAC算法和样本内行动评论(in-sample actor-critic, InAC)算法收敛速度分别提升12.5%、5.4%,引入专家经验后算法收敛速度进一步提升14.3%;在测试阶段,本文算法与SAC和InAC算法相比,成功率分别提升17、12百分点,平均回合奖励分别提升23.1%、10.7%。 展开更多
关键词 智慧交通 自动驾驶决策 保守Q学习算法 行动评论算法 专家经验 防撞策略
下载PDF
用本地化策略提升省级党报评论品牌——以北京日报近5年的评论实践为例
7
作者 胡宇齐 《新闻世界》 2022年第12期62-65,共4页
对于地方党报评论来说,过多关注国内时政、国际热点等宏大命题以及全国范围内的舆论事件,反而忽略本地新闻事件、新政举措等,既容易产生同质化问题,也可能失去特色,在激烈竞争中丧失立身之基。本文以北京日报近5年的评论实践为例,分析... 对于地方党报评论来说,过多关注国内时政、国际热点等宏大命题以及全国范围内的舆论事件,反而忽略本地新闻事件、新政举措等,既容易产生同质化问题,也可能失去特色,在激烈竞争中丧失立身之基。本文以北京日报近5年的评论实践为例,分析其通过本地化策略收获的利好:更好服务中心工作、深度参与城市治理、理性回应民生诉求、有力引导社会舆论等。在此基础上,为进一步深化本地化策略提出建议:扩展选题视野、锐化评论针对性、增强文章说理性。 展开更多
关键词 省级党报 本地化策略 软评论 贴近性 针对性
下载PDF
基于强化学习的电磁悬浮型磁浮列车悬浮控制
8
作者 胡轲珽 徐俊起 +1 位作者 刘志刚 林国斌 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计... 为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。 展开更多
关键词 电磁悬浮(EMS)型磁浮列车 悬浮控制 强化学习控制 演员-评论家(SAC)智能体 奖励函数设计
下载PDF
论《南都·街谈》的平民化特色
9
作者 宋立民 陈恺思 《清远职业技术学院学报》 2009年第2期1-7,共7页
《南方都市报》的"街谈"栏目开创了新时期新闻评论的"软评论"的先河。此类评论常常是一事一议,平平静静,甚至有一种"姑妄言之姑听之"的随意,但其充满人文关怀的思想深度、平民化的立足点、关注本地的民... 《南方都市报》的"街谈"栏目开创了新时期新闻评论的"软评论"的先河。此类评论常常是一事一议,平平静静,甚至有一种"姑妄言之姑听之"的随意,但其充满人文关怀的思想深度、平民化的立足点、关注本地的民生新闻以取得"以小见大"效果的切入点、对于与百姓衣食住行等密切相关的问题立即作出回应的即时性以及活泼、跳跃、幽默、精简的文字风格,都为新闻评论学提供了不可多得的成功范例。 展开更多
关键词 “街谈”栏目 软评论 平民化
下载PDF
基于动作约束深度强化学习的安全自动驾驶方法 被引量:13
10
作者 代珊珊 刘全 《计算机科学》 CSCD 北大核心 2021年第9期235-243,共9页
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探... 随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败。针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制。无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。另外,CSAC方法又对智能体的动作进行了约束。当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作。为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比。结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度。最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性。 展开更多
关键词 安全自动驾驶 深度强化学习 行动者-评论 车道保持 无人车
下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:1
11
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 演员-评论家算法
下载PDF
基于随机加权三重Q学习的异策略最大熵强化学习算法 被引量:2
12
作者 范静宇 刘全 《计算机科学》 CSCD 北大核心 2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。 展开更多
关键词 Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 行动者—评论家算法
下载PDF
文章合为时而著——人民日报“任仲平”署名文章写作浅析
13
作者 苏文姜 《报林》 2019年第1期46-47,共2页
任仲平系列文章,依托人民日报权威平台,以其广泛的选题、超长的篇幅、特有的行文架构和气势磅礴的语言风格,数次斩获中国新闻奖,成为新闻评论文章的佼佼者,在新闻评论领域独树一帜。本文尝试对任仲平系列文章的业界地位、写作特色进行探... 任仲平系列文章,依托人民日报权威平台,以其广泛的选题、超长的篇幅、特有的行文架构和气势磅礴的语言风格,数次斩获中国新闻奖,成为新闻评论文章的佼佼者,在新闻评论领域独树一帜。本文尝试对任仲平系列文章的业界地位、写作特色进行探析,力求获得有益于新闻评论写作的启示。 展开更多
关键词 新闻评论项目组 融合 机制 实践
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部