-
题名采用语义一致性编码网络的跨模态语音关键词检索
被引量:2
- 1
-
-
作者
齐梅
刘则芬
樊浩
李升
-
机构
安徽开放大学信息与建筑工程学院
-
出处
《宜宾学院学报》
2022年第12期6-13,共8页
-
基金
安徽省高校自然科学研究重点项目(KJ20211255)
安徽开放大学青年研究项目(QN202111)。
-
文摘
针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network,SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum,MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过余弦距离计算语义向量之间的距离,快速匹配检索结果.在公共数据集上的实验测试,取得了超过基线方法7%的精度,验证了SCCN方法有效性.
-
关键词
语义一致性特征
编码网络
语音关键词
跨模态检索
双重损失函数
-
Keywords
semantic-consistent features
coding networks
speech keywords
cross-modal retrieval
dual loss function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-