Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测...Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测学生作品,从而提高教学效率。针对该问题,提出Siamese-BERT模型对两个Scratch作品之间的相似度进行检测。首先,对Scratch源文件进行解析提取原始积木块序列,根据积木块逻辑特征提出一种积木块重构算法,将原始积木块序列排序成Token序列,将Token序列作为CBOW(Continuous Bag of Words)模型的输入文本进行预训练,从而得到Scratch的词向量模型;再使用Siamese神经网络框架结合BERT(Bidirectional Encoder Representation from Transformers)模型组合训练,最终输入到余弦相似度函数进行相似度计算。数据集来自于长沙市Scratch培训机构的培训作品和学生的练习作品,在该数据集上,Siamese-BERT模型准确度能达到0.82,对比其它的文本相似度模型,Siamese-BERT模型在Scratch作品相似度检测上更加准确。展开更多
文摘Scratch作为图形化编程中的热门课程吸引了广大中小学生,而对于学生所做的作品与标准作品之间差异性的评定通常是靠教师通过人工对比检查,对于教师不仅工作量大且耗费巨大精力,因此对于Scratch作品相似性的识别就可以辅助教师快速检测学生作品,从而提高教学效率。针对该问题,提出Siamese-BERT模型对两个Scratch作品之间的相似度进行检测。首先,对Scratch源文件进行解析提取原始积木块序列,根据积木块逻辑特征提出一种积木块重构算法,将原始积木块序列排序成Token序列,将Token序列作为CBOW(Continuous Bag of Words)模型的输入文本进行预训练,从而得到Scratch的词向量模型;再使用Siamese神经网络框架结合BERT(Bidirectional Encoder Representation from Transformers)模型组合训练,最终输入到余弦相似度函数进行相似度计算。数据集来自于长沙市Scratch培训机构的培训作品和学生的练习作品,在该数据集上,Siamese-BERT模型准确度能达到0.82,对比其它的文本相似度模型,Siamese-BERT模型在Scratch作品相似度检测上更加准确。