翻唱歌曲识别是音乐信息检索(Music Information Retrieval, MIR)领域最具挑战性的任务之一。为了提高翻唱歌曲识别(Cover Song Identification, CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别模型,但相似度高维空...翻唱歌曲识别是音乐信息检索(Music Information Retrieval, MIR)领域最具挑战性的任务之一。为了提高翻唱歌曲识别(Cover Song Identification, CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别模型,但相似度高维空间几何结构的学习大幅度增加了模型的时间复杂度,同时该模型没有考虑歌词对翻唱识别的重要性。本文提出了基于音频内容和歌词文本相似度融合的翻唱识别模型。采用深度学习的方法分别提取音频特征和歌词特征,并采用相似度网络融合模型对这两种特征的相似度进行融合。为了验证算法的有效性,构建了Covers2326多模态数据库。实验结果表明,与基于多音频特征相似度张量积图融合模型相比,本文模型取得了更高的识别准确率和更低的时间复杂度。展开更多
由于人脸面部结构复杂,不同人脸之间结构特征相似,导致难以提取到十分适合用于分类的人脸特征,虽然神经网络具有良好效果,并且有很多改进的损失函数能够帮助提取需要的特征,但是单一的深度特征没有充分利用多层特征之间的互补性,针对这...由于人脸面部结构复杂,不同人脸之间结构特征相似,导致难以提取到十分适合用于分类的人脸特征,虽然神经网络具有良好效果,并且有很多改进的损失函数能够帮助提取需要的特征,但是单一的深度特征没有充分利用多层特征之间的互补性,针对这些问题提出了一种基于神经网络多层特征信息融合的人脸识别方法。首先选择ResNet网络结构进行改进,提取神经网络中的多层特征,然后将多层特征映射到子空间,在各自子空间内通过定义的中心变量进行自适应加权融合;为进一步提升效果,将所有特征送入Softmax分类器,同时对分类结果通过相同方式进行自适应加权决策融合;训练网络学习适合的中心变量,应用中心变量计算加权融合相似度。在同样的有限条件下,在使用AM-Softmax损失函数的基础上,融合特征在LFW(Labeled Faces in the Wild)上的识别效果了提升1.6%,使用融合相似度提升了2.2%。能够有效地提升人脸识别率,提取更合适的人脸特征。展开更多
文摘翻唱歌曲识别是音乐信息检索(Music Information Retrieval, MIR)领域最具挑战性的任务之一。为了提高翻唱歌曲识别(Cover Song Identification, CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别模型,但相似度高维空间几何结构的学习大幅度增加了模型的时间复杂度,同时该模型没有考虑歌词对翻唱识别的重要性。本文提出了基于音频内容和歌词文本相似度融合的翻唱识别模型。采用深度学习的方法分别提取音频特征和歌词特征,并采用相似度网络融合模型对这两种特征的相似度进行融合。为了验证算法的有效性,构建了Covers2326多模态数据库。实验结果表明,与基于多音频特征相似度张量积图融合模型相比,本文模型取得了更高的识别准确率和更低的时间复杂度。
文摘由于人脸面部结构复杂,不同人脸之间结构特征相似,导致难以提取到十分适合用于分类的人脸特征,虽然神经网络具有良好效果,并且有很多改进的损失函数能够帮助提取需要的特征,但是单一的深度特征没有充分利用多层特征之间的互补性,针对这些问题提出了一种基于神经网络多层特征信息融合的人脸识别方法。首先选择ResNet网络结构进行改进,提取神经网络中的多层特征,然后将多层特征映射到子空间,在各自子空间内通过定义的中心变量进行自适应加权融合;为进一步提升效果,将所有特征送入Softmax分类器,同时对分类结果通过相同方式进行自适应加权决策融合;训练网络学习适合的中心变量,应用中心变量计算加权融合相似度。在同样的有限条件下,在使用AM-Softmax损失函数的基础上,融合特征在LFW(Labeled Faces in the Wild)上的识别效果了提升1.6%,使用融合相似度提升了2.2%。能够有效地提升人脸识别率,提取更合适的人脸特征。