为丰富学生的声乐学习资源、节省教师人力资源,本研究提出将虚拟现实技术(Virtual Reality,VR)与声乐演唱相结合,构建一个新的虚拟教学系统。首先构建一个虚拟学习系统;接着提出一种基于Log-Gabor-改进局部二值模式(Improved Local Bina...为丰富学生的声乐学习资源、节省教师人力资源,本研究提出将虚拟现实技术(Virtual Reality,VR)与声乐演唱相结合,构建一个新的虚拟教学系统。首先构建一个虚拟学习系统;接着提出一种基于Log-Gabor-改进局部二值模式(Improved Local Binary Pattern,ILBP)的语谱图特征算法,对不同尺寸与方向的语谱细节特征进行放大,增强图像纹理细节特征;最后引入多级残差结构-ICNN以弥补丢失的特征,提高对演唱者语音的识别率。结果显示,在Saarbruecken数据集与CASIA数据集中,研究算法的收敛指标值均最小,具有较高的收敛性;窗长为600、谱窗尺寸大小为16×16时,模型有最高语音识别效率。该算法对于演唱者的情感识别效果较好,准确率均高于80%。以上结果均表明,本次研究的算法识别准确率高,稳定性好,能够较好地运用于声乐演唱教育教学中。展开更多
基金Supported by National Natural Science Foundation of China (61273260), Specialized Research Fund for the Doctoral Program of Higher Education of China (20121333120010), Natural Scientific Research Foundation of the Higher Education Institutions of Hebei Province (2010t65), the Major Program of the National Natural Science Foundation of China (61290322), Foundation of Key Labora- tory of System Control and Information Processing, Ministry of Education (SCIP2012008), and Science and Technology Research and Development Plan of Qinhuangdao City (2012021A041)
文摘为丰富学生的声乐学习资源、节省教师人力资源,本研究提出将虚拟现实技术(Virtual Reality,VR)与声乐演唱相结合,构建一个新的虚拟教学系统。首先构建一个虚拟学习系统;接着提出一种基于Log-Gabor-改进局部二值模式(Improved Local Binary Pattern,ILBP)的语谱图特征算法,对不同尺寸与方向的语谱细节特征进行放大,增强图像纹理细节特征;最后引入多级残差结构-ICNN以弥补丢失的特征,提高对演唱者语音的识别率。结果显示,在Saarbruecken数据集与CASIA数据集中,研究算法的收敛指标值均最小,具有较高的收敛性;窗长为600、谱窗尺寸大小为16×16时,模型有最高语音识别效率。该算法对于演唱者的情感识别效果较好,准确率均高于80%。以上结果均表明,本次研究的算法识别准确率高,稳定性好,能够较好地运用于声乐演唱教育教学中。