期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于深度学习的长语音口音识别研究
1
作者 朱丹浩 王震 +2 位作者 黄肖宇 马壮 徐杰 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期110-118,共9页
普通话口音识别是物证鉴定的重要技术之一.目前普通话口音识别技术主要基于传统机器学习方法建立,也未针对长语音做专门设计,识别精度不高.针对以上问题,本文提出了基于深度学习的长语音口音识别方法.该方法首先将长语音切分为句子级别... 普通话口音识别是物证鉴定的重要技术之一.目前普通话口音识别技术主要基于传统机器学习方法建立,也未针对长语音做专门设计,识别精度不高.针对以上问题,本文提出了基于深度学习的长语音口音识别方法.该方法首先将长语音切分为句子级别的多个短语音,然后使用经过预训练的X-vectors模型提取特征,再基于不同方法对句子特征进行融合,最后采用Amsoftmax最大化口音类别间隔并进行分类.在真实的物证口音识别数据集上的实验结果显示,本文方法的识别精确率为94.1%,比非深度学习的基准方法和基于X-vectors的基准方法分别提升了21.6%和2.1%,验证了本文方法的有效性和针对长语音的口音识别能力. 展开更多
关键词 深度学习 口音识别 长语音 普通话
下载PDF
中国英语学习者语音短时记忆与词汇习得关系的实证研究 被引量:2
2
作者 周玉凤 李荣宝 《华侨大学学报(哲学社会科学版)》 2013年第3期148-154,共7页
考察不同水平英语学习者的语音短时记忆与外语词汇习得的关系。结果表明:(1)语音短时记忆对初学者和初中被试具有最强的预测作用。虽然长时语音和词汇-语义知识开始对初中被试的词汇习得具有一定的预测力,但语音短时记忆的预测力仍旧是... 考察不同水平英语学习者的语音短时记忆与外语词汇习得的关系。结果表明:(1)语音短时记忆对初学者和初中被试具有最强的预测作用。虽然长时语音和词汇-语义知识开始对初中被试的词汇习得具有一定的预测力,但语音短时记忆的预测力仍旧是最强的。(2)长时语音和词汇语义知识则是预测熟练学习者外语词汇习得的唯一因素。由此可见,语音短时记忆与词汇习得之间是一种互相促进的动态发展关系。 展开更多
关键词 语音短时记忆 词汇习得 语音知识 时词汇语义知识
下载PDF
基于多模态语料库的同声传译语音拖长现象研究 被引量:11
3
作者 刘剑 陈水平 《中国外语》 CSSCI 北大核心 2020年第4期104-111,共8页
语音拖长是口译中一种常见的不流畅现象。基于多模态口译语料库的研究表明,英汉同传中拖长现象发生频率较高的依次是动词、名词、代词以及介词,其他词类(形容词、副词、连词、助词等)发生的频率较低,其最可能发生在引领新的分句或意群... 语音拖长是口译中一种常见的不流畅现象。基于多模态口译语料库的研究表明,英汉同传中拖长现象发生频率较高的依次是动词、名词、代词以及介词,其他词类(形容词、副词、连词、助词等)发生的频率较低,其最可能发生在引领新的分句或意群的关键字(词)上。本研究对语料的原文及译文对应的音频片段进行观察分析后,认为导致语音拖长的原因可能有二:一是原语中的不流畅现象可能导致译语中也出现同一种或类似的不流畅现象,本研究称之为不流畅迁移现象;二是原语语速过快、口音怪异或出现口译难点(比如生僻词、新词、难记的数字、复杂句式等)使口译出现认知障碍而导致拖长现象出现。口译拖长迁移现象是译员对原语一种下意识的模仿,因此迁移现象对应的原语不流畅现象基本都发生在拖长时刻之前,而口译难点则基本发生在拖长时刻之后。拖长是译员在遭遇认知障碍后为争取更多处理时间而被迫采取的一种口译策略。 展开更多
关键词 多模态 语料库 同声传译 不流畅 语音
原文传递
Multi-head attention-based long short-term memory model for speech emotion recognition 被引量:1
4
作者 Zhao Yan Zhao Li +3 位作者 Lu Cheng Li Sunan Tang Chuangao Lian Hailun 《Journal of Southeast University(English Edition)》 EI CAS 2022年第2期103-109,共7页
To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model ... To fully make use of information from different representation subspaces,a multi-head attention-based long short-term memory(LSTM)model is proposed in this study for speech emotion recognition(SER).The proposed model uses frame-level features and takes the temporal information of emotion speech as the input of the LSTM layer.Here,a multi-head time-dimension attention(MHTA)layer was employed to linearly project the output of the LSTM layer into different subspaces for the reduced-dimension context vectors.To provide relative vital information from other dimensions,the output of MHTA,the output of feature-dimension attention,and the last time-step output of LSTM were utilized to form multiple context vectors as the input of the fully connected layer.To improve the performance of multiple vectors,feature-dimension attention was employed for the all-time output of the first LSTM layer.The proposed model was evaluated on the eNTERFACE and GEMEP corpora,respectively.The results indicate that the proposed model outperforms LSTM by 14.6%and 10.5%for eNTERFACE and GEMEP,respectively,proving the effectiveness of the proposed model in SER tasks. 展开更多
关键词 speech emotion recognition long short-term memory(LSTM) multi-head attention mechanism frame-level features self-attention
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部