在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流....在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流.其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解.因此,提出了一种软深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法.该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率.所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军.与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性.展开更多
Turbo码是一种常用的信道编码方式,正确识别Turbo码首先要正确识别其子递归系统卷积(recursive system convolutional,RSC)码,由于信道噪声与干扰引发误码,这就要求识别算法具有良好的抗误码性能以及识别能力。利用解调软判决序列,通过...Turbo码是一种常用的信道编码方式,正确识别Turbo码首先要正确识别其子递归系统卷积(recursive system convolutional,RSC)码,由于信道噪声与干扰引发误码,这就要求识别算法具有良好的抗误码性能以及识别能力。利用解调软判决序列,通过编码码元约束方程,构建指数形式的代价函数模型,将识别RSC码的生成矩阵问题转化为求解代价函数全域极值的最优化问题,最后在共轭梯度法的基础上,采用新的PRP步长因子来寻找全域极值点。仿真结果表明,所提算法与现有算法相比,收敛速度更快,在低信噪比下也有良好的识别能力。展开更多
文摘在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一.而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流.其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点,还由于可选出牌动作与他人手牌情况数量庞大等特点,难以进行高效求解.因此,提出了一种软深度蒙特卡洛(soft deep Monte Carlo,SDMC)求解方法.该方法能够更好地融合领域知识,加快策略学习速度,并采用软动作采样策略调整实时决策,提升策略胜率.所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军.与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性.
文摘Turbo码是一种常用的信道编码方式,正确识别Turbo码首先要正确识别其子递归系统卷积(recursive system convolutional,RSC)码,由于信道噪声与干扰引发误码,这就要求识别算法具有良好的抗误码性能以及识别能力。利用解调软判决序列,通过编码码元约束方程,构建指数形式的代价函数模型,将识别RSC码的生成矩阵问题转化为求解代价函数全域极值的最优化问题,最后在共轭梯度法的基础上,采用新的PRP步长因子来寻找全域极值点。仿真结果表明,所提算法与现有算法相比,收敛速度更快,在低信噪比下也有良好的识别能力。