为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习...为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习模型。所构建的集成学习模型在管制指令数据集上取得在本领域中的最优效果。在通用的ROUGE(recall-oriented understudy for gisting evaluation)评价标准中,取得R_(OUGE-1)=0.998,R_(OUGE-2)=0.995,R_(OUGE-L)=0.998的最新效果。其中,R_(OUGE-1)关注参考文本与生成文本之间单个单词的匹配度,R_(OUGE-2)则关注两个连续单词的匹配度,R_(OUGE-L)则关注最长公共子序列的匹配度。为了克服通用指标在本领域的局限性,更准确地评估模型性能,针对生成的复诵指令提出一套基于关键词的评价标准。该评价指标准基于管制文本分词后的结果计算各个关键词指标来评估模型的效果。在基于关键词的评价标准下,所构建模型取得整体准确率为0.987的最优效果,对航空器呼号的复诵准确率达到0.998。展开更多
文摘为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习模型。所构建的集成学习模型在管制指令数据集上取得在本领域中的最优效果。在通用的ROUGE(recall-oriented understudy for gisting evaluation)评价标准中,取得R_(OUGE-1)=0.998,R_(OUGE-2)=0.995,R_(OUGE-L)=0.998的最新效果。其中,R_(OUGE-1)关注参考文本与生成文本之间单个单词的匹配度,R_(OUGE-2)则关注两个连续单词的匹配度,R_(OUGE-L)则关注最长公共子序列的匹配度。为了克服通用指标在本领域的局限性,更准确地评估模型性能,针对生成的复诵指令提出一套基于关键词的评价标准。该评价指标准基于管制文本分词后的结果计算各个关键词指标来评估模型的效果。在基于关键词的评价标准下,所构建模型取得整体准确率为0.987的最优效果,对航空器呼号的复诵准确率达到0.998。