期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于Sinc-Transformer模型的原始语音情感识别 被引量:8
1
作者 俞佳佳 金赟 +2 位作者 马勇 姜芳艽 戴妍妍 《信号处理》 CSCD 北大核心 2021年第10期1880-1888,共9页
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器... 考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。 展开更多
关键词 语音情感 Transformer模型编码器 SincNet滤波器 原始语音
下载PDF
基于端到端深度神经网络的语音情感识别研究 被引量:11
2
作者 吕惠炼 胡维平 《广西师范大学学报(自然科学版)》 CAS 北大核心 2021年第3期20-26,共7页
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序... 语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。 展开更多
关键词 语音情感识别 CNN BLSTM 端到端 原始语音
下载PDF
高速铁路GSM-R语音质量评估研究 被引量:1
3
作者 王晓东 王惠生 谢保锋 《铁路技术创新》 2012年第1期82-84,共3页
正1语音质量评价技术背景自有通信技术开始,特别是移动通信的发展,语音信息传输一直具有举足轻重的地位。随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。因此,为了更好地定量分析和测量网络的语音服务质量,要根据电信... 正1语音质量评价技术背景自有通信技术开始,特别是移动通信的发展,语音信息传输一直具有举足轻重的地位。随着移动网络发展的日趋成熟,客户对网络的性能质量要求逐渐提高。因此,为了更好地定量分析和测量网络的语音服务质量,要根据电信网络服务质量(QoS)的要求,建立一套客观评估标准。语音质量评价从主体上可分为主观评价和客观评价两大类。主观评价以人为主体,在某种预设原则基础上对语音质量作出主观的等级意见或比较结果。 展开更多
关键词 语音质量评价 高速铁路 原始语音 主观评价 客观评价方法 移动通信系统 网络服务质量 测量网络 测试方法 定量分析
下载PDF
XD-5220汉语语音合成开发系统
4
作者 王富生 胡征 《电信科学》 1988年第10期55-58,共4页
本文概述了语音合成的基本概念,较完整地给出了我们自己研制的TMS5220汉语语音合成开发系统硬、软件的组成及工作原理,并给出了开发系统的工作过程。文章指出使用该开发系统可以方便、灵活地获得TMS 5220所需的汉语语音的合成参数。在... 本文概述了语音合成的基本概念,较完整地给出了我们自己研制的TMS5220汉语语音合成开发系统硬、软件的组成及工作原理,并给出了开发系统的工作过程。文章指出使用该开发系统可以方便、灵活地获得TMS 5220所需的汉语语音的合成参数。在充分考虑汉语语音特点的情况下,合成参数的比特率平均不高于1.2kbits/s。 展开更多
关键词 汉语语音合成 XD-5220 开发系统 语音信号 混迭 比特率 线性预测 原始语音 语音数据 基音检测
下载PDF
基于深层声学特征的端到端语音分离 被引量:2
5
作者 李娟娟 王丹 李子晋 《计算机系统应用》 2019年第10期1-7,共7页
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模... 提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟. 展开更多
关键词 语音分离 声学特征 深度神经网络 语音原始波形 端到端模型
下载PDF
说“肉”
6
作者 刘根辉 《古汉语研究》 CSSCI 北大核心 1998年第4期75-80,共6页
关键词 "肉" 语音形式 原始语音 藏缅语族 侗台语族 《概论》 侗水语支 介音 上古音 鼻冠音
下载PDF
元音差异对声调感知范畴的影响 被引量:3
7
作者 王星 刘亚丽 《声学技术》 CSCD 2013年第S1期221-222,共2页
0引言汉语是一种声调语言[1]。元音作为声调的承载体,必然对声调产生重要的影响。以往的研究[2,3]主要集中在元音对于声调基频走势以及声调识别的影响上,而针对声调的感知范畴边界的影响却相对较少。本文选取了普通话声调四声齐全的三... 0引言汉语是一种声调语言[1]。元音作为声调的承载体,必然对声调产生重要的影响。以往的研究[2,3]主要集中在元音对于声调基频走势以及声调识别的影响上,而针对声调的感知范畴边界的影响却相对较少。本文选取了普通话声调四声齐全的三个单元音[a,i,u]作为原始材料,采用"基音同步叠加(PSOLA)"方法对原始语音进行修改合成。 展开更多
关键词 音差 普通话水平 原始语音 承载体 边界点 实验信号 边界值 被试 识别实验 统计方法
下载PDF
基于声韵母的藏语语音合成研究 被引量:1
8
作者 公保才让 《信息与电脑(理论版)》 2014年第1期52-53,共2页
本文根据安多藏语的特点,提出了以声母韵母为语音基元的藏语语音合成方法,以声韵母进行组合来生成语音音节。从而使音库的容量能够控制在数百KB,同时语音质量与以音节为基元的合成方法相比并没有明显的下降。
关键词 语音合成 语音质量 合成语音 安多藏语 后置辅音 原始语音 以声 拼接方法 语合 短时傅里叶变换
原文传递
“女娲”得名考
9
作者 王建堂 《文史知识》 1997年第7期102-103,共2页
女娲据传是创造华夏民族的"圣母",其名最早见于《楚辞·天问》:"女娲有体,孰制匠之。"王逸注:"女蜗,蛇头人身。"到西汉《淮南子·览冥训》:"女娲炼五色石以补天。" 这个形象就更有眉... 女娲据传是创造华夏民族的"圣母",其名最早见于《楚辞·天问》:"女娲有体,孰制匠之。"王逸注:"女蜗,蛇头人身。"到西汉《淮南子·览冥训》:"女娲炼五色石以补天。" 这个形象就更有眉有眼了。《说文》释曰:"娲古之神圣女,化万物者也。"且第一次明确标音"从女呙声,古蛙切",读若"呱"。后来由于语音流变中的"声转"关系。 展开更多
关键词 原始语音 女娲 文化心理 历史必然 说文 华夏民族 流变 生命本体 王逸注 淮南子
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部