期刊文献+
共找到401篇文章
< 1 2 21 >
每页显示 20 50 100
改进Wav2Lip的文本音频驱动人脸动画生成
1
作者 孙瑜 朱欣娟 《计算机系统应用》 2024年第2期276-283,共8页
为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2... 为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2Lip模型中,引入文本特征,提升唇音时间同步性从而提高人脸动画视频的真实性.本文模型综合提取到的文本信息、音频信息和说话人面部信息,在预训练的唇部判别器和视频质量判别器的监督下,生成高真实感的唇音同步人脸动画视频.与ATVGnet模型和Wav2Lip模型的对比实验表明,本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性,提高了人脸动画视频整体的真实感.本文成果为当前人脸动画生成需求提供一种解决方案. 展开更多
关键词 文本音频驱动 人脸动画 wav2Lip模型 动画生成
下载PDF
基于Wav2vec2.0与语境情感信息补偿的对话语音情感识别
2
作者 曹荣贺 吴晓龙 +4 位作者 冯畅 郑方 徐明星 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《信号处理》 CSCD 北大核心 2023年第4期698-707,共10页
情感在人际交互中扮演着重要的角色。在日常对话中,一些语句往往存在情感色彩较弱、情感类别复杂、模糊性高等现象,使对话语音情感识别成为一项具有挑战性的任务。针对该问题,现有很多工作通过对全局对话进行情感信息检索,将全局情感信... 情感在人际交互中扮演着重要的角色。在日常对话中,一些语句往往存在情感色彩较弱、情感类别复杂、模糊性高等现象,使对话语音情感识别成为一项具有挑战性的任务。针对该问题,现有很多工作通过对全局对话进行情感信息检索,将全局情感信息用于预测。然而,当对话中前后的话语情感变化较大时,不加选择的引入前文情感信息容易给当前预测带来干扰。本文提出了基于Wav2vec2.0与语境情感信息补偿的方法,旨在从前文中选择与当前话语最相关的情感信息作为补偿。首先通过语境信息补偿模块从历史对话中选择可能对当前话语情感影响最大的话语的韵律信息,利用长短时记忆网络将韵律信息构建为语境情感信息补偿表征。然后,利用预训练模型Wav2vec2.0提取当前话语的嵌入表征,将嵌入表征与语境表征融合用于情感识别。本方法在IEMOCAP数据集上的识别性能为69.0%(WA),显著超过了基线模型。 展开更多
关键词 情感识别 二元对话 情感补偿 wav2vec2.0
下载PDF
基于Wav2vec2.0神经网络的轨道交通钢轨损伤压电阵列超声导波定位方法 被引量:1
3
作者 刘思昊 钱鲁斌 +1 位作者 梅曜华 邢宇辉 《城市轨道交通研究》 北大核心 2023年第6期101-105,110,共6页
鉴于普通超声波检测方法无法实现对轨道交通钢轨的长距离检测,基于超声导波的SHM(结构健康监测)技术难以从响应信号中提取损伤特征而影响损伤定位精度,提出了一种基于Wav2vec2.0神经网络的压电阵列超声导波定位方法对轨道交通钢轨损伤... 鉴于普通超声波检测方法无法实现对轨道交通钢轨的长距离检测,基于超声导波的SHM(结构健康监测)技术难以从响应信号中提取损伤特征而影响损伤定位精度,提出了一种基于Wav2vec2.0神经网络的压电阵列超声导波定位方法对轨道交通钢轨损伤进行定位。基于压电阵列超声导波数据的特点,对该方法进行了简要介绍。搭建了钢轨损伤的超声导波检测系统,并利用该系统进行数据集的采集。采用ABAQUS有限元软件建立钢轨损伤超声导波检测三维有限元模型,并利用该模型进行数据集的采集。利用小波信号处理方法对超声导波试验信号进行重构,以达到信号去噪的目的;在仿真信号中加入随机噪声,将叠加随机噪声后的超声导波仿真信号作为补充数据集;通过计算模型中钢轨损伤定位的准确率和误差对模型的性能进行评估。结果表明,当迭代轮次达到第120次时,训练样本的准确率达到100%。利用基于Wav2vec 2.0神经网络的压电阵列超声导波定位方法可实现轨道交通钢轨损伤的准确定位。 展开更多
关键词 轨道交通 钢轨损伤 压电阵列超声导波定位方法 wav2vec2.0神经网络
下载PDF
Using Speaker-Specific Emotion Representations in Wav2vec 2.0-Based Modules for Speech Emotion Recognition
4
作者 Somin Park Mpabulungi Mark +1 位作者 Bogyung Park Hyunki Hong 《Computers, Materials & Continua》 SCIE EI 2023年第10期1009-1030,共22页
Speech emotion recognition is essential for frictionless human-machine interaction,where machines respond to human instructions with context-aware actions.The properties of individuals’voices vary with culture,langua... Speech emotion recognition is essential for frictionless human-machine interaction,where machines respond to human instructions with context-aware actions.The properties of individuals’voices vary with culture,language,gender,and personality.These variations in speaker-specific properties may hamper the performance of standard representations in downstream tasks such as speech emotion recognition(SER).This study demonstrates the significance of speaker-specific speech characteristics and how considering them can be leveraged to improve the performance of SER models.In the proposed approach,two wav2vec-based modules(a speaker-identification network and an emotion classification network)are trained with the Arcface loss.The speaker-identification network has a single attention block to encode an input audio waveform into a speaker-specific representation.The emotion classification network uses a wav2vec 2.0-backbone as well as four attention blocks to encode the same input audio waveform into an emotion representation.These two representations are then fused into a single vector representation containing emotion and speaker-specific information.Experimental results showed that the use of speaker-specific characteristics improves SER performance.Additionally,combining these with an angular marginal loss such as the Arcface loss improves intra-class compactness while increasing inter-class separability,as demonstrated by the plots of t-distributed stochastic neighbor embeddings(t-SNE).The proposed approach outperforms previous methods using similar training strategies,with a weighted accuracy(WA)of 72.14%and unweighted accuracy(UA)of 72.97%on the Interactive Emotional Dynamic Motion Capture(IEMOCAP)dataset.This demonstrates its effectiveness and potential to enhance human-machine interaction through more accurate emotion recognition in speech. 展开更多
关键词 Attention block IEMOCAP dataset speaker-specific representation speech emotion recognition wav2vec 2.0
下载PDF
基于WAV文件的独奏乐曲信号中的乐谱识别 被引量:4
5
作者 曹西征 刘春红 孙林 《计算机应用》 CSCD 北大核心 2009年第3期768-770,788,共4页
大多数乐谱识别工作都是在MIDI格式文件下进行的,而音乐数据大多采用音频格式存储,为此讨论一种从WAV音频文件的独奏乐曲信号中识别出乐谱的方法。采用离散余弦变换(DCT)结合能量比对的手段,并提出了一种变化音最少法则:以十六分音符对... 大多数乐谱识别工作都是在MIDI格式文件下进行的,而音乐数据大多采用音频格式存储,为此讨论一种从WAV音频文件的独奏乐曲信号中识别出乐谱的方法。采用离散余弦变换(DCT)结合能量比对的手段,并提出了一种变化音最少法则:以十六分音符对应的时值作为步长,将乐曲信号分为若干个子段;对每个子段进行一维DCT操作,提取基音频率;对相邻子段进行能量比对,查找音符的端点;利用变化音最少法则,生成乐谱。实验表明此方法具有良好的识别效果。 展开更多
关键词 乐谱识别 wav文件 离散余弦变换 基音频率
下载PDF
WAV音频文件的分句播放技术及应用 被引量:2
6
作者 孙世军 彭承琳 白洋 《计算机工程与应用》 CSCD 北大核心 2004年第12期102-104,共3页
由于英语听力训练的要求,提出了一种WAV音频文件分句播放技术,并给出在VC++上实现的一个实例。利用多媒体文件输入输出服务函数,从WAV文件读出音频格式和音频数据。用一个指针指定要播放句子数据的开始位置,将要播放的音频数据一段一段... 由于英语听力训练的要求,提出了一种WAV音频文件分句播放技术,并给出在VC++上实现的一个实例。利用多媒体文件输入输出服务函数,从WAV文件读出音频格式和音频数据。用一个指针指定要播放句子数据的开始位置,将要播放的音频数据一段一段地取出,播放每一句所用的时间来自分句信息文件,确定所播放数据的长度,调用WAV音频服务函数实现分句播放。在VisualC++6下用此技术开发了英语听力训练多媒体教学软件。 展开更多
关键词 wav音频服务函数 wav音频文件 分句播放 VISUAL C++ 多媒体文件输入输出服务函数
下载PDF
XBASE数据库WAV音频信息提取批处理 被引量:1
7
作者 张庆华 韩吉韬 王宁生 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2003年第6期676-681,共6页
在开发新的管理信息系统时 ,原有数据库信息的一种处理方法是将所有信息提取导入到新系统中 ,这样可以避免对旧的数据库系统进行维护 ,也便于新系统的更新升级。一些基于 d BASE X,Fox BASE,Fox Pro等XBASE数据库的信息系统改造升级时 ,... 在开发新的管理信息系统时 ,原有数据库信息的一种处理方法是将所有信息提取导入到新系统中 ,这样可以避免对旧的数据库系统进行维护 ,也便于新系统的更新升级。一些基于 d BASE X,Fox BASE,Fox Pro等XBASE数据库的信息系统改造升级时 ,XBASE数据库 DBF表文件向 Oracle,SQL Sever等数据库加载导入有各种不同的方法 ,但对于存储在 FPT备注文件中的 WAV音频信息数据的转换则没有好的解决办法。本文分析了各个版本 XBASE数据库文件和 WAV音频文件的结构 ,提出了基于文件的 XBASE数据库 WAV音频信息自动导出转换的处理方法 ,可以在脱离数据库系统操作环境进行信息处理 ,提高了数据库转换工作的效率 ,解决了无法转换 XBASE备注文件中 WAV音频数据的问题 。 展开更多
关键词 XBASE数据库 wav 音频信息 批处理 信息处理 FPT文件 文件结构
下载PDF
基于多媒体WAV文件的语音特征识别 被引量:1
8
作者 徐济仁 陈家松 谢成山 《计算机工程》 CAS CSCD 北大核心 2000年第11期123-125,共3页
Windows的WAV文件提供的语音信息可以满足语音特征识别的要求.根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别.所选择的参数有效,系... Windows的WAV文件提供的语音信息可以满足语音特征识别的要求.根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别.所选择的参数有效,系统模板存储量少,系统训练和识别的运算量小. 展开更多
关键词 wav文件 讲话者识别 语音特征识别 多媒体
下载PDF
WAV语音文件格式的分析与处理 被引量:8
9
作者 张敬怀 马道钧 《北京电子科技学院学报》 2004年第2期47-50,46,共5页
WAV语音文件是Windows声音文件基本格式之一。分析其语音文件的格式是语音信号处理的一项重要工作。本文细致地分析了WAV语音文件的格式,为进一步进行语音文件数据处理和语音信号处理打下了基础。
关键词 wav 语音文件格式 RIFF文件 采样数据
下载PDF
对WAV文件格式的实例分析 被引量:2
10
作者 徐济仁 牛纪海 陈家松 《电声技术》 北大核心 2001年第11期55-56,共2页
关键词 wav文件格式 实例分析 声音文件
下载PDF
WAV文件格式实例分析 被引量:5
11
作者 徐济仁 牛纪海 陈家松 《微型机与应用》 2002年第3期50-51,共2页
分析WAV文件格式。
关键词 wav文件 声音文件 格式码 文件格式 程序设计
下载PDF
WAV音频分句的算法设计 被引量:2
12
作者 赵文博 张生 +1 位作者 孙国强 王艇艇 《微计算机信息》 2011年第8期204-205,196,共3页
随着网络信息技术的迅猛成长,我们正快步走进信息时代,世界经济、文化等信息交流变得十分频繁与快捷。基于语言学习的需要,本文提出了一种基于语音端点检测技术的音频分句算法。本算法对音频文件进行"分帧"后,通过提取语音帧... 随着网络信息技术的迅猛成长,我们正快步走进信息时代,世界经济、文化等信息交流变得十分频繁与快捷。基于语言学习的需要,本文提出了一种基于语音端点检测技术的音频分句算法。本算法对音频文件进行"分帧"后,通过提取语音帧特征项,判别其特征值后对其进行归类。在特征项提取时,为短时过零率设定正负门限,可大大增强判别特征值的准确性。提出上升沿与下降沿的概念对语音端点进行精确定位,并最终存储音频分句的端点,实现音频分句功能。 展开更多
关键词 wav音频 音频分句 短时过零率 短时平均能量
下载PDF
wav音频文件格式分析与数据获取 被引量:16
13
作者 罗海涛 《电脑知识与技术》 2016年第9X期211-213,共3页
音频文件是把语音信号离散化的数字文件,wav格式的音频文件是常用的二进制音频格式,广泛应用于语音信号处理、语音识别、语音合成等领域;本文详细分析了wav音频文件格式,并用C语言编程,实现对该格式文件的访问,获取音频信息和数据。
关键词 wav 音频文件 音频信息 音频数据
下载PDF
DOS环境下播放WAV语音
14
作者 李东生 王震 《辽宁高职学报》 2000年第5期67-68,71,共3页
在DOS环境下,实现了对Windows WAV语音文件播放的程序设计。利用脉宽调制方法可使PC机的扬声器能够直接在DOS环境下播放WAV语音文件,产生的语音效果较为逼真。
关键词 wav语音文件 扬声器 8253定时器 语音信号
下载PDF
Self-Diffuser:语音驱动人脸表情的技术研究
15
作者 臧梦利 王少波 +1 位作者 智宇 陈昂 《计算机科学与应用》 2024年第8期236-249,共14页
先前的语音驱动面部表情的动画研究从音频信号中产生了较为逼真和精确的嘴唇运动和面部表情。传统的方法主要集中在学习从语音到动画的确定性映射,最近的研究开始探讨语音驱动的3D人脸动画的多样性,即通过利用扩散模型的多样性能力来捕... 先前的语音驱动面部表情的动画研究从音频信号中产生了较为逼真和精确的嘴唇运动和面部表情。传统的方法主要集中在学习从语音到动画的确定性映射,最近的研究开始探讨语音驱动的3D人脸动画的多样性,即通过利用扩散模型的多样性能力来捕捉音频和面部运动之间复杂的多对多关系来完成任务。本文的Self-Diffuser方法使用预训练的大语言模型wav2vec 2.0对音频输入进行编码,通过引入基于扩散的技术,将其与Transformer相结合来完成生成任务。本研究不仅克服了传统回归模型在生成具有唇读可理解性的真实准确唇运动方面的局限性,还探讨了精确的嘴唇同步和创造与语音无关的面部表情之间的权衡。通过对比、分析当前最先进的方法,本文的Self-Diffuser方法,使得语音驱动的面部动画产生了更精确的唇运动;在与说话松散相关的上半部表情方面也产生了更贴近于真实说话表情的面部运动;同时本文模型引入的扩散机制使得生成3D人脸动画序列的多样性能力也大大提高。Previous research on speech-driven facial expression animation has achieved realistic and accurate lip movements and facial expressions from audio signals. Traditional methods primarily focused on learning deterministic mappings from speech to animation. Recent studies have started exploring the diversity of speech-driven 3D facial animation, aiming to capture the complex many-to-many relationships between audio and facial motion by leveraging the diversity capabilities of diffusion models. In this study, the Self-Diffuser method is proposed by utilizing the pre-trained large-scale language model wav2vec 2.0 to encode audio inputs. By introducing diffusion-based techniques and combining them with Transformers, the generation task is accomplished. This research not only overcomes the limitations of traditional regression models in generating lip movements that are both realistic and lip-reading comprehensible, but also explores the trade-off between precise lip synchronization and creating facial expressions independent of speech. Through comparisons and analysis with the current state-of-the-art methods, the Self-Diffuser method in this paper achieves more accurate lip movements in speech-driven facial animation. It also produces facial motions that closely resemble real speaking expressions in the upper face region correlated with speech looseness. Additionally, the introduced diffusion mechanism significantly enhances the diversity capabilities in generating 3D facial animation sequences. 展开更多
关键词 wav2vec 2.0 TRANSFORMER 扩散机制 语音驱动 面部动画
下载PDF
一种确保在WinCE系统中传输.wav文件完整性的方法
16
作者 王忠 《现代电子技术》 北大核心 2015年第10期49-51,共3页
使用WinCE系统的智能手持终端,在不稳定的无线网络环境中使用UDP协议发送wav格式的音频文件时,另一台WinCE智能设备接收到的文件经常是不完整的,导致文件无法播放。针对这种网络数据丢包现象,研究提高UDP协议可靠性的设计思路和实现方法... 使用WinCE系统的智能手持终端,在不稳定的无线网络环境中使用UDP协议发送wav格式的音频文件时,另一台WinCE智能设备接收到的文件经常是不完整的,导致文件无法播放。针对这种网络数据丢包现象,研究提高UDP协议可靠性的设计思路和实现方法,发现.wav文件头中标识文件属性的数据无法与接收到的文件数据实体对应,是造成无法正常播放的根本原因,因此对接收的文件的文件头进行校正和复原工作,保证头文件的各标识位对应数据的正确性,确保接收的声音文件能正常播放。最后在嵌入式开发环境中进行了实现,验证了这种方法的有效性。 展开更多
关键词 WINCE UDP wav文件 智能手持终端
下载PDF
数字信号处理在wav信号分析方面的应用 被引量:1
17
作者 黄荷洁 《科技视界》 2013年第34期172-173,共2页
随着信息学科和计算机学科的飞速发展,数字信号处理的重要性日益显著。本文将详细介绍数字信号处理技术在信号分析方面的实际应用,同时文中给出了MATLAB仿真程序和结果分析,便于读者进一步认识数字信号处理技术的应用。
关键词 数字信号处理 wav信号 傅里叶变换
下载PDF
基于音频多模态研究的信号分析系统设计
18
作者 武雅琴 邓林强 +2 位作者 杨晨艺 吕嘉 公徐路 《山西电子技术》 2024年第1期95-98,共4页
通过统计分析NSP模态文件准确定位真实数据,解析WAV模态文件结构、编码特征和影响因素,充分考虑声道数、采样频率、PCM采样位数,实现不同模态格式转换,设计基于音频多模态研究的信号分析系统。实验从文件内码、文件参数信息、信号声波... 通过统计分析NSP模态文件准确定位真实数据,解析WAV模态文件结构、编码特征和影响因素,充分考虑声道数、采样频率、PCM采样位数,实现不同模态格式转换,设计基于音频多模态研究的信号分析系统。实验从文件内码、文件参数信息、信号声波波形和主观听觉感受方面进行综合对比分析,验证该系统的有效性和实用性。 展开更多
关键词 音频多模态 信号分析 NSP wav
下载PDF
基于多媒体WAV文件的语音特征识别
19
作者 徐济仁 陈家松 《舰船电子工程》 2002年第6期37-40,共4页
WINDOWS的WAV文件提供的语音信息可以满足语音特征识别的要求。根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别,所选择的参数有效,系统模板存储量少,... WINDOWS的WAV文件提供的语音信息可以满足语音特征识别的要求。根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别,所选择的参数有效,系统模板存储量少,系统训练和识别的运算量小。 展开更多
关键词 多媒体 wav文件 讲话者识别 鼻音声母 极零模型 语音识别
下载PDF
VB中调用API实现wav文件的记录和播放
20
作者 郭姣 《科技创新导报》 2009年第3期34-34,共1页
本文对Windows API函数在Visual Basic中的多媒体操作进行了简明的论述,使用户能够轻松自如地实现wav文件的记录和播放,并给出了相关源代码。
关键词 WINDOWS API函数 VISUAL Basic wav文件
下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部