为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征...为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。展开更多
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视...唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.展开更多
为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模...为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模型.该模型以自然语言为主体,分别使用基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers,BERT)模型、广义自回归预训练(generalized autoregressive pretraining for language understanding,XLNet)模型和一种鲁棒优化的BERT预训练(robustly optimized BERT pretraining approach,RoBERTa)模型为文本模态做词嵌入编码;创建动态调整语义模块将自然语言和非自然语言信息有效结合;设计词性加权模块,提取单词词性并赋权以优化情感判别.与张量融合网络和低秩多模态融合等当前先进模型的对比实验结果表明,PW-DS模型在公共数据集CMU-MOSI和CMU-MOSEI上的平均绝对误差分别达到了0.607和0.510,二分类准确率分别为89.02%和86.93%,优于对比模型.通过消融实验分析了不同模块对模型效果的影响,验证了模型的有效性.展开更多
文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语...文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语音与原声源的频谱距离实现基于视觉语音合成的身份认证技术。展开更多
文摘为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。
文摘唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.
文摘为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment,PW-DS)模型.该模型以自然语言为主体,分别使用基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers,BERT)模型、广义自回归预训练(generalized autoregressive pretraining for language understanding,XLNet)模型和一种鲁棒优化的BERT预训练(robustly optimized BERT pretraining approach,RoBERTa)模型为文本模态做词嵌入编码;创建动态调整语义模块将自然语言和非自然语言信息有效结合;设计词性加权模块,提取单词词性并赋权以优化情感判别.与张量融合网络和低秩多模态融合等当前先进模型的对比实验结果表明,PW-DS模型在公共数据集CMU-MOSI和CMU-MOSEI上的平均绝对误差分别达到了0.607和0.510,二分类准确率分别为89.02%和86.93%,优于对比模型.通过消融实验分析了不同模块对模型效果的影响,验证了模型的有效性.
文摘文章分析了语音合成技术的要点,基于语音合成提出了一种视觉的语音合成算法L2W(Lip to Wav),并将其应用到身份认证当中。在GRID英文唇语数据集上的实验验证,证明了L2W的准确率能够达到78.85%,比相关算法有4.55%的提升。通过L2W合成的语音与原声源的频谱距离实现基于视觉语音合成的身份认证技术。