针对软件缺陷报告严重性预测中现有模型分类精度较低、深层次的语义特征不够丰富等问题,本文提出了一种基于BERT句子级别与词级别特征融合的SWF-BERT(Sentence-level and Word-level features Fusion-BERT)软件缺陷报告严重性预测模型....针对软件缺陷报告严重性预测中现有模型分类精度较低、深层次的语义特征不够丰富等问题,本文提出了一种基于BERT句子级别与词级别特征融合的SWF-BERT(Sentence-level and Word-level features Fusion-BERT)软件缺陷报告严重性预测模型.首先,对缺陷报告中的文本进行了数据预处理.其次,为了加强嵌入层中融合后的特征语义信息,提取词频最高的前100个单词,筛选出与缺陷严重性相关的特征词对其进行关键词嵌入操作,并融合嵌入层中的其他向量进行词嵌入.最后,将BERT模型输出层得到的特征(除[CLS]token外)送入多尺度卷积神经网络结合长短期记忆网络(MC-LSTM)模型中,加强了不同特征间远距离的时序信息.采用BERT模型输出得到的[CLS]句向量经过线性变换的结果与MC-LSTM模型输出经过线性变换得到的结果做可学习的自适应加权融合,实现了对软件缺陷报告严重性的有效预测.实验结果表明,使用SWF-BERT模型的平均准确率、召回率和F1值在Mozilla数据集中分别达到了68.41%、64.60%和64.86%,在Eclipse数据集中分别达到了61.32%、62.62%和59.31%,与其他分类算法相比,该方法在性能上得到了较大的提升.展开更多
文摘针对软件缺陷报告严重性预测中现有模型分类精度较低、深层次的语义特征不够丰富等问题,本文提出了一种基于BERT句子级别与词级别特征融合的SWF-BERT(Sentence-level and Word-level features Fusion-BERT)软件缺陷报告严重性预测模型.首先,对缺陷报告中的文本进行了数据预处理.其次,为了加强嵌入层中融合后的特征语义信息,提取词频最高的前100个单词,筛选出与缺陷严重性相关的特征词对其进行关键词嵌入操作,并融合嵌入层中的其他向量进行词嵌入.最后,将BERT模型输出层得到的特征(除[CLS]token外)送入多尺度卷积神经网络结合长短期记忆网络(MC-LSTM)模型中,加强了不同特征间远距离的时序信息.采用BERT模型输出得到的[CLS]句向量经过线性变换的结果与MC-LSTM模型输出经过线性变换得到的结果做可学习的自适应加权融合,实现了对软件缺陷报告严重性的有效预测.实验结果表明,使用SWF-BERT模型的平均准确率、召回率和F1值在Mozilla数据集中分别达到了68.41%、64.60%和64.86%,在Eclipse数据集中分别达到了61.32%、62.62%和59.31%,与其他分类算法相比,该方法在性能上得到了较大的提升.