期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
相似语言环境下目标语音提取研究
1
作者 王智 《现代计算机》 2024年第14期84-88,共5页
针对实际应用中常见的相似语音分离问题,构建了一个新的数据库P-C以模拟相似语言环境。该数据库结合了自制的重庆方言数据集CQSpeech和公开的中文数据集THCH30,以此来研究普通话与重庆方言混合语音的分离问题。另外,为了充分利用语音特... 针对实际应用中常见的相似语音分离问题,构建了一个新的数据库P-C以模拟相似语言环境。该数据库结合了自制的重庆方言数据集CQSpeech和公开的中文数据集THCH30,以此来研究普通话与重庆方言混合语音的分离问题。另外,为了充分利用语音特征,在CRN网络中嵌入说话人特征。首先通过模型训练大量数据以获取说话人特征,然后将说话人特征与分离模型中的特征进行融合,这样能够有效地提高相似语言语音分离的清晰度和准确性。根据实验验证,该模型在P-C数据库上展示了良好的分离效果。 展开更多
关键词 相似语言 语音分离 数据集
下载PDF
基于区别特征系统的连续语音识别模型研究
2
作者 王昆仑 《合肥学院学报(自然科学版)》 2014年第1期31-34,共4页
黏着性语音的元辅音区别性特征对口语环境下的连续语音识别影响很大.通过维吾尔语和谐语音现象下的发音规律及其规则,采用语言学、实验语音学技术和数字语音信号处理等方法,研究和谐发音现象下的元音、辅音区别特征系统,建立扩展元辅音... 黏着性语音的元辅音区别性特征对口语环境下的连续语音识别影响很大.通过维吾尔语和谐语音现象下的发音规律及其规则,采用语言学、实验语音学技术和数字语音信号处理等方法,研究和谐发音现象下的元音、辅音区别特征系统,建立扩展元辅音集,并以此为基础,开展基于扩展元辅音集的连续语音识别研究,进一步通过其声学模型比较研究,构建连续语音识别模型,为维吾尔语口语环境下的连续语音识别提供一种新方法. 展开更多
关键词 扩展元辅音集 区别特征系统 连续语音识别模型 维吾尔语
下载PDF
面向算法模型的语音数据集质量评估方法研究 被引量:2
3
作者 李荪 曹峰 刘姿杉 《计算机科学》 CSCD 北大核心 2022年第S02期519-524,共6页
随着智能语音技术和产品应用大规模的成熟落地,对高质量语音数据集的需求与日俱增。目前,针对结构化数据的质量评估方法有一定的研究,但尚未形成面向非结构化的语音数据集质量评估标准。通过研究语音算法模型的构建原理,分析语音数据集... 随着智能语音技术和产品应用大规模的成熟落地,对高质量语音数据集的需求与日俱增。目前,针对结构化数据的质量评估方法有一定的研究,但尚未形成面向非结构化的语音数据集质量评估标准。通过研究语音算法模型的构建原理,分析语音数据集的建设需求,建设统一的语音数据集质量评估体系。该评估体系从4个维度对面向算法模型训练的语音数据集进行质量评价,包括广度覆盖性、选集区分性、领域深入性和数据完整性。通过提出具体的语音数据集质量评估指标、计算方法和评估步骤等,对车载应用领域语音数据集的质量进行评估并对结果进行分析,对评估语音数据集质量、促进数据集建设提供参考。考虑了语音数据集构建的多样化适用能力、隐私问题、效率要求、自动化需求等,提出了构建高质量的语音数据集的未来发展建议。 展开更多
关键词 人工智能 语音数据集 质量评估 算法 模型 智能语音
下载PDF
基于AdaBoost特征选择和XGBoost的帕金森病诊断 被引量:1
4
作者 谭言丹 赵阳洋 赵光财 《信息技术》 2020年第9期124-128,共5页
为实现准确的帕金森病(PD)早期诊断,文中提出基于语音信号的集成学习诊断方法。基于AdaBoost的特征筛选方式被设计来获得最优目标特征子集,其中过多的弱分类器能习得更多目标特征,而计算复杂度和更多不相关特征被习得的风险也随之增加... 为实现准确的帕金森病(PD)早期诊断,文中提出基于语音信号的集成学习诊断方法。基于AdaBoost的特征筛选方式被设计来获得最优目标特征子集,其中过多的弱分类器能习得更多目标特征,而计算复杂度和更多不相关特征被习得的风险也随之增加。相反地,较少弱分类器能降低计算复杂度,然而涉及信息丢失问题。为获得最优弱分类器方案,文中基于监督学习获得最优弱分类器配置。最后,为提升所提出方法的泛化性能,基于正则化损失函数的XGBoost被开发来实现最终病情诊断。实验结果显示,所提出方案的精度(97.28%)相比其它先进算法提升了1.93%。 展开更多
关键词 帕金森病 语音数据集 集成学习 ADABOOST XGBoost
下载PDF
藏语方言语音合成数据集 被引量:1
5
作者 仁曾卓玛 朱丽平 《中国科学数据(中英文网络版)》 CSCD 2022年第2期20-29,共10页
本研究构建并公开了藏语卫藏、安多和康巴三大方言的语音合成数据集。本数据集来源于喜马拉雅FM听音软件,内容包含新闻、法律知识、生活常识、小故事等。数据集中的音频由专业的播音员录播而成,能够保证发音的准确性,通过用专业的音频... 本研究构建并公开了藏语卫藏、安多和康巴三大方言的语音合成数据集。本数据集来源于喜马拉雅FM听音软件,内容包含新闻、法律知识、生活常识、小故事等。数据集中的音频由专业的播音员录播而成,能够保证发音的准确性,通过用专业的音频软件切割播音内容,提供10多小时约8.02 GB的音频及对应的文本数据,共4684条句子。文本经过藏语专业人员审核,能够保证语法的正确性。从字丁、音标、语音现象的均衡覆盖率等多方面对数据集的质量评估表明,本数据集对各方言语言特征覆盖率高,且语音现象覆盖均衡。本数据集可以为研究藏语方言语音合成提供数据支撑,同时还可以作为研究藏语三大方言语音发音、停顿、韵律、节奏等语音特征的语料库。 展开更多
关键词 语音合成 安多方言 卫藏方言 康巴方言 数据集
下载PDF
蒙汉语音翻译数据集
6
作者 戚肖克 特尼格尔 +1 位作者 孙媛 赵小兵 《中国科学数据(中英文网络版)》 CSCD 2022年第2期84-90,共7页
目前,由于缺乏公开数据集,面向少数民族语言的语音翻译的研究较少。为此,本文构建并公开了蒙语语音到汉语文本语音翻译数据集(NMLR-Mon2Chs ST)。本数据集包含36位年龄在20-25岁之间的蒙古人通过手机录制的蒙语语音,以及由专业人员标注... 目前,由于缺乏公开数据集,面向少数民族语言的语音翻译的研究较少。为此,本文构建并公开了蒙语语音到汉语文本语音翻译数据集(NMLR-Mon2Chs ST)。本数据集包含36位年龄在20-25岁之间的蒙古人通过手机录制的蒙语语音,以及由专业人员标注的蒙语和汉语的文本。为保证数据质量,对数据进行了预处理,如去除空语音文件、重采样、归一化后,最终得到25小时的高质量数据,数据集中音频的平均时长为4.2秒。本数据集的建立为探索面向少数民族语言的语音翻译技术提供了一定的数据基础。 展开更多
关键词 语音翻译 蒙汉 少数民族语言 低资源 数据集
下载PDF
语音情感识别中面向小数据集的CGRU方法 被引量:1
7
作者 吴俊清 倪建成 魏媛媛 《计算机技术与发展》 2020年第12期77-82,共6页
为增强人机交互的和谐,提升语音情感识别的精度,提出一种面向小数据集的CGRU深度学习方法。该方法将原始音频通过上移和下移操作进行语音增强,将增强后的语音信号映射到Mel尺度并生成Mel功率谱图,然后对其做旋转、切角、偏移等图像增强... 为增强人机交互的和谐,提升语音情感识别的精度,提出一种面向小数据集的CGRU深度学习方法。该方法将原始音频通过上移和下移操作进行语音增强,将增强后的语音信号映射到Mel尺度并生成Mel功率谱图,然后对其做旋转、切角、偏移等图像增强操作,并结合卷积神经网络(CNN)对频域特征的捕捉能力和门控循环单元(GRU)网络对时序信息的特性获取能力构成融合模型CGRU,该模型通过自动学习深度谱特征进行情感识别。实验分别验证了利用谱图特征与手工特征在Emo-DB上的识别效果,并比较了CLSTM与CGRU的时间性能。结果表明,利用谱图特征在CGRU方法上的情感识别精度达到98.39%,超过传统手工特征eGeMAPS在该数据库上的识别效果,提出的方法在语音情感识别任务上获得有竞争力的表现。另外,在相同的训练参数下,CGRU要比CLSTM具有更加良好的时间性能。 展开更多
关键词 语音情感识别 卷积神经网络 门控循环单元 小数据集 谱图特征
下载PDF
真实环境下的多模态情感数据集MED 被引量:3
8
作者 陈静 王科俊 +2 位作者 赵聪 殷超群 黄自强 《中国图象图形学报》 CSCD 北大核心 2020年第11期2349-2360,共12页
目的情感识别的研究一直致力于帮助系统在人机交互的环节中以更合适的方式来对用户的需求进行反馈。但它在现实应用中的表现却较差。主要原因是缺乏与现实应用环境类似的大规模多模态数据集。现有的野外多模态情感数据集很少,而且受试... 目的情感识别的研究一直致力于帮助系统在人机交互的环节中以更合适的方式来对用户的需求进行反馈。但它在现实应用中的表现却较差。主要原因是缺乏与现实应用环境类似的大规模多模态数据集。现有的野外多模态情感数据集很少,而且受试者数量有限,使用的语言单一。方法为了满足深度学习算法对数据量的要求,本文收集、注释并准备公开发布一个全新的自然状态下的视频数据集(multimodal emotion dataset,MED)。首先收集人员从电影、电视剧、综艺节目中手工截取视频片段,之后通过注释人员对截取视频片段的标注最终得到了1839个视频片段。这些视频片段经过人物检测、人脸检测等操作获得有效的视频帧。该数据集包含7种基础情感和3种模态:人脸表情,身体姿态,情感语音。结果为了提供情感识别的基准,在本文的实验部分,利用机器学习和深度学习方法对MED数据集进行了评估。首先与CK+数据集进行了对比实验,结果表明使用实验室环境下收集的数据开发算法很难应用到实际中,然后对各个模态进行了基线实验,并给出了各个模态的基线。最后多模态融合的实验结果相对于单模态的人脸表情识别提高了4.03%。结论多模态情感数据库MED扩充了现有的真实环境下多模态数据库,以推进跨文化(语言)情感识别和对不同情感评估的感知分析等方向的研究,提高自动情感计算系统在现实应用中的表现。 展开更多
关键词 真实环境 多模态 人脸表情 身体姿态 情感语音 数据集
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部