奖励函数设计的合理性对于提升深度强化学习算法的性能至关重要。针对投资组合管理任务,识别并解决了现有奖励函数的两大缺陷:一是过度关注短期市场波动而忽略长期趋势;二是对带来奖励和造成损失行为的奖惩相当,这并不符合投资者的损失...奖励函数设计的合理性对于提升深度强化学习算法的性能至关重要。针对投资组合管理任务,识别并解决了现有奖励函数的两大缺陷:一是过度关注短期市场波动而忽略长期趋势;二是对带来奖励和造成损失行为的奖惩相当,这并不符合投资者的损失厌恶心理。为此,借鉴行为金融学中的投资者损失厌恶理论,创新性地提出了一种多步损失厌恶(Multi-step Loss Aversion,MSLA)奖励函数,以更准确地刻画投资者在交易中的行为模式,并据此构建了在线投资组合管理策略。选取A股市场上三个具有代表性的指数,构建了相应的投资组合,在2019年至2023年的历史数据上进行了回测实验。实验结果表明,MSLA奖励函数显著提升了策略的整体性能,从累计收益率、夏普比率和最大回撤等指标来看,普遍优于现有的其他算法。此外,该策略不仅适用于不同市值大小股票组成的投资组合,而且在上涨、下跌和震荡的市场状态下均能保持稳健的性能,这充分说明了该算法在投资组合管理中的有效性和实用性。展开更多
文摘奖励函数设计的合理性对于提升深度强化学习算法的性能至关重要。针对投资组合管理任务,识别并解决了现有奖励函数的两大缺陷:一是过度关注短期市场波动而忽略长期趋势;二是对带来奖励和造成损失行为的奖惩相当,这并不符合投资者的损失厌恶心理。为此,借鉴行为金融学中的投资者损失厌恶理论,创新性地提出了一种多步损失厌恶(Multi-step Loss Aversion,MSLA)奖励函数,以更准确地刻画投资者在交易中的行为模式,并据此构建了在线投资组合管理策略。选取A股市场上三个具有代表性的指数,构建了相应的投资组合,在2019年至2023年的历史数据上进行了回测实验。实验结果表明,MSLA奖励函数显著提升了策略的整体性能,从累计收益率、夏普比率和最大回撤等指标来看,普遍优于现有的其他算法。此外,该策略不仅适用于不同市值大小股票组成的投资组合,而且在上涨、下跌和震荡的市场状态下均能保持稳健的性能,这充分说明了该算法在投资组合管理中的有效性和实用性。