提出了一种多A gen t并行Q-学习算法.学习系统中存在多个A gen t,它们的学习环境、学习任务及自身功能均相同.在每个学习周期内,各个A gen t在各自独立的学习环境中进行学习,当一个学习周期结束后,对各个A gen t的学习结果进行融合,融...提出了一种多A gen t并行Q-学习算法.学习系统中存在多个A gen t,它们的学习环境、学习任务及自身功能均相同.在每个学习周期内,各个A gen t在各自独立的学习环境中进行学习,当一个学习周期结束后,对各个A gen t的学习结果进行融合,融合后的结果被所有的A gen t共享,并以此为基础进行下一个周期的学习.实验结果表明了该方法的可行性和有效性.展开更多
文摘提出了一种多A gen t并行Q-学习算法.学习系统中存在多个A gen t,它们的学习环境、学习任务及自身功能均相同.在每个学习周期内,各个A gen t在各自独立的学习环境中进行学习,当一个学习周期结束后,对各个A gen t的学习结果进行融合,融合后的结果被所有的A gen t共享,并以此为基础进行下一个周期的学习.实验结果表明了该方法的可行性和有效性.