文摘基于深度学习的鸟鸣声识别是当前研究的热点,现有基于语谱图的识别方法无法提取帧间的时序信息,文章提出了一种基于C-LSTM(CNN-Long Short-Term Memory)的鸟鸣声识别方法,该方法以梅尔语谱图为输入,通过CNN提取谱图特征后,输入到LSTM模型中,进一步提取不同帧之间的时序特征,基于该特征实现鸟鸣声的分类。选择Xeno-Canto中的5种鸟类作为研究对象,对比了VGG16模型和C-LSTM模型的平均识别准确率(Mean Average Precision,MAP)值。结果表明,以VGG16和C-LSTM作为识别模型时,测试集的MAP值分别为0.8628和0.9147,文章提出模型的MAP提升5.19%。说明文章提出的C-LSTM更适合于鸟类物种识别,具有更高的识别性能。