期刊文献+
共找到150篇文章
< 1 2 8 >
每页显示 20 50 100
Automatic depression recognition by intelligent speech signal processing:A systematic survey
1
作者 Pingping Wu Ruihao Wang +3 位作者 Han Lin Fanlong Zhang Juan Tu Miao Sun 《CAAI Transactions on Intelligence Technology》 SCIE EI 2023年第3期701-711,共11页
Depression has become one of the most common mental illnesses in the world.For better prediction and diagnosis,methods of automatic depression recognition based on speech signal are constantly proposed and updated,wit... Depression has become one of the most common mental illnesses in the world.For better prediction and diagnosis,methods of automatic depression recognition based on speech signal are constantly proposed and updated,with a transition from the early traditional methods based on hand‐crafted features to the application of architectures of deep learning.This paper systematically and precisely outlines the most prominent and up‐to‐date research of automatic depression recognition by intelligent speech signal processing so far.Furthermore,methods for acoustic feature extraction,algorithms for classification and regression,as well as end to end deep models are investigated and analysed.Finally,general trends are summarised and key unresolved issues are identified to be considered in future studies of automatic speech depression recognition. 展开更多
关键词 acoustic signal processing deep learning feature extraction speech depression recognition
下载PDF
Artificial Intelligence for Speech Recognition Based on Neural Networks 被引量:3
2
作者 Takialddin Al Smadi Huthaifa A. Al Issa +1 位作者 Esam Trad Khalid A. Al Smadi 《Journal of Signal and Information Processing》 2015年第2期66-72,共7页
Speech recognition or speech to text includes capturing and digitizing the sound waves, transformation of basic linguistic units or phonemes, constructing words from phonemes and contextually analyzing the words to en... Speech recognition or speech to text includes capturing and digitizing the sound waves, transformation of basic linguistic units or phonemes, constructing words from phonemes and contextually analyzing the words to ensure the correct spelling of words that sounds the same. Approach: Studying the possibility of designing a software system using one of the techniques of artificial intelligence applications neuron networks where this system is able to distinguish the sound signals and neural networks of irregular users. Fixed weights are trained on those forms first and then the system gives the output match for each of these formats and high speed. The proposed neural network study is based on solutions of speech recognition tasks, detecting signals using angular modulation and detection of modulated techniques. 展开更多
关键词 speech recognition NEURAL NETWORKS Artificial NETWORKS signalS processing
下载PDF
An Optimal Method for Speech Recognition Based on Neural Network
3
作者 Mohamad Khairi Ishak DagØivind Madsen Fahad Ahmed Al-Zahrani 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期1951-1961,共11页
Natural language processing technologies have become more widely available in recent years,making them more useful in everyday situations.Machine learning systems that employ accessible datasets and corporate work to ... Natural language processing technologies have become more widely available in recent years,making them more useful in everyday situations.Machine learning systems that employ accessible datasets and corporate work to serve the whole spectrum of problems addressed in computational linguistics have lately yielded a number of promising breakthroughs.These methods were particularly advantageous for regional languages,as they were provided with cut-ting-edge language processing tools as soon as the requisite corporate information was generated.The bulk of modern people are unconcerned about the importance of reading.Reading aloud,on the other hand,is an effective technique for nour-ishing feelings as well as a necessary skill in the learning process.This paper pro-posed a novel approach for speech recognition based on neural networks.The attention mechanism isfirst utilized to determine the speech accuracy andfluency assessments,with the spectrum map as the feature extraction input.To increase phoneme identification accuracy,reading precision,for example,employs a new type of deep speech.It makes use of the exportchapter tool,which provides a corpus,as well as the TensorFlow framework in the experimental setting.The experimentalfindings reveal that the suggested model can more effectively assess spoken speech accuracy and readingfluency than the old model,and its evalua-tion model’s score outcomes are more accurate. 展开更多
关键词 Machine learning neural networks speech recognition signal processing learning process fluency and accuracy
下载PDF
Space discriminative function for microphone array robust speech recognition
4
作者 赵贤宇 Ou Zhijian Wang Zuoying 《High Technology Letters》 EI CAS 2005年第4期351-354,共4页
Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was deve... Based on W-disjoint orthogonality of speech mixtures, a space d,scnmlnative tunetlon was proposer1 to enumerate and localize competing speakers in the surrounding environments. Then, a Wiener-like postfiherer was developed to adaptively suppress interferences. Experimental results with a hands-free speech recognizer under various SNR and competing speakers settings show that nearly 69 % error reduction can be obtained with a two-channel small aperture microphone array against the conventional single microphone baseline system. Comparisons were made against traditional delay-and-sum and Griffiths-Jim adaptive beamforming techniques to further assess the effectiveness of this method. 展开更多
关键词 speech recognition array signal processing microphone array source localization adaptive filtering
下载PDF
High Performance Speech Compression System 被引量:6
5
作者 Ke Liu, Zhichun Mu, Zhong Wang Information Engineering School, University of Science & Technology Beijing, Beijing 100083, China 《Journal of University of Science and Technology Beijing》 CSCD 2001年第3期229-233,共5页
Since Pulse Code Modulation emerged in 1937, digitized speech has experienced rapid development due to its outstanding voice quality, reliability, robustness and security in communication. But how to reduce channel wi... Since Pulse Code Modulation emerged in 1937, digitized speech has experienced rapid development due to its outstanding voice quality, reliability, robustness and security in communication. But how to reduce channel width without loss of speech quality remains a crucial problem in speech coding theory. A new full-duplex digital speech communication system based on the Vocoder of AMBE-1000(TM) and microcontroller ATMEL 89C51 is introduced. It shows higher voice quality than current mobile phone system with only a quarter of channel width needed for the latter. The prospective areas in which the system can be applied include satellite communication, IP Phone, virtual meeting and the most important, defence industry. 展开更多
关键词 digital signal processing digital speech compression digital communication full-duplex coding rate
下载PDF
Merge-Weighted Dynamic Time Warping for Speech Recognition 被引量:1
6
作者 张湘莉兰 骆志刚 李明 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第6期1072-1082,共11页
Obtaining training material for rarely used English words and common given names from countries where English is not spoken is difficult due to excessive time, storage and cost factors. By considering personal privacy... Obtaining training material for rarely used English words and common given names from countries where English is not spoken is difficult due to excessive time, storage and cost factors. By considering personal privacy, language- independent (LI) with lightweight speaker-dependent (SD) automatic speech recognition (ASR) is a convenient option to solve tile problem. The dynamic time warping (DTW) algorithm is the state-of-the-art algorithm for small-footprint SD ASR for real-time applications with limited storage and small vocabularies. These applications include voice dialing on mobile devices, menu-driven recognition, and voice control on vehicles and robotics. However, traditional DTW has several lhnitations, such as high computational complexity, constraint induced coarse approximation, and inaccuracy problems. In this paper, we introduce the merge-weighted dynamic time warping (MWDTW) algorithm. This method defines a template confidence index for measuring the similarity between merged training data and testing data, while following the core DTW process. MWDTW is simple, efficient, and easy to implement. With extensive experiments on three representative SD speech recognition datasets, we demonstrate that our method outperforms DTW, DTW on merged speech data, the hidden Markov model (HMM) significantly, and is also six times faster than DTW overall. 展开更多
关键词 merge-weighted dynamic time warping natural language processing speech recognition and synthesis tem-plate confidence index
原文传递
A Speaker Identity Recognition System based on Deep Learning
7
作者 Yili Shen 《Journal of Electronic Research and Application》 2019年第5期21-22,共2页
This paper describes a branch of pattern recognition and lies in the field of digital signal processing.It is a speech recognition system of identifying different people speaking based on deep learning.In brief this m... This paper describes a branch of pattern recognition and lies in the field of digital signal processing.It is a speech recognition system of identifying different people speaking based on deep learning.In brief this method can be used as intelligent voice control like Siri. 展开更多
关键词 speech recognition INTELLIGENT signal processing
下载PDF
基于自然语言处理的铁路客运营销分析智能对话系统研究
8
作者 李仕旺 江琳 王桂林 《铁路计算机应用》 2024年第8期61-71,共11页
为提高铁路客运营销数据分析能力,研究开发了铁路客运营销分析智能对话系统,为铁路客运营销业务人员提供一种基于人机对话的数据分析工具。该系统包括语音识别、自然语言文本处理、智能数据挖掘、智能应答4个主要功能模块;利用语音唤醒... 为提高铁路客运营销数据分析能力,研究开发了铁路客运营销分析智能对话系统,为铁路客运营销业务人员提供一种基于人机对话的数据分析工具。该系统包括语音识别、自然语言文本处理、智能数据挖掘、智能应答4个主要功能模块;利用语音唤醒和语音识别技术采集语音数据,通过神经网络模型将语音数据转换成自然语言文本;建立自然语言文本预处理模型,完成基于规则的词法句法分析方法,使用长短期记忆神经网络实现语义理解,确定用户意图;基于Bert模型的Text-to-SQL技术,将自然语言文本数据转换成数据查询SQL语句,构建智能Agent完成数据挖掘分析,生成数据分析结果;最后,运用语音合成技术和数据可视化技术,将数据分析结果转换为用户应答信息。 展开更多
关键词 客运营销分析 智能对话系统 自然语言处理 语音识别 深度学习 语义理解 数据挖掘 语音合成 数据可视化
下载PDF
人工智能在音频信号处理中的应用与挑战
9
作者 武堂颖 杨璐 徐丽丽 《电声技术》 2024年第5期31-34,共4页
人工智能可以通过智能化的算法和模型处理音频信号,从而实现音频的增强、识别及转换等功能。然而,人工智能在音频处理领域的应用也面临一些挑战。首先从自动语音识别、语音合成、音频去噪与增强、情感识别与音频分析4个方面分析人工智... 人工智能可以通过智能化的算法和模型处理音频信号,从而实现音频的增强、识别及转换等功能。然而,人工智能在音频处理领域的应用也面临一些挑战。首先从自动语音识别、语音合成、音频去噪与增强、情感识别与音频分析4个方面分析人工智能在音频信号处理中的应用,其次从音频信号的复杂性和多变性、数据获取与标注问题、计算资源与效率问题以及隐私与安全问题4个方面分析人工智能在音频信号处理中面临的挑战,最后深入分析应对挑战的对策。 展开更多
关键词 人工智能 音频信号处理 语音识别
下载PDF
基于机器学习的电力系统语音指令识别算法研究
10
作者 陆增洁 黄雄健 +6 位作者 汪诗怡 许思钦 崔若涵 姜文斌 刘亦颖 龚侃 朱欣晨 《电力与能源》 2024年第4期486-489,共4页
通过提高电力系统中语音指令识别技术的准确度、实时性和鲁棒性,旨在增强电力系统的可靠性和稳定性。首先分析了电力系统语音信号的预处理方法,包括信号增强、语音帧分割和频谱平滑等技术,在此基础上设计了一种基于高斯混合模型的语音... 通过提高电力系统中语音指令识别技术的准确度、实时性和鲁棒性,旨在增强电力系统的可靠性和稳定性。首先分析了电力系统语音信号的预处理方法,包括信号增强、语音帧分割和频谱平滑等技术,在此基础上设计了一种基于高斯混合模型的语音指令识别算法。试验结果表明,该算法在电力系统语音控制场景下具有较高的识别准确率和实时性,同时具备良好的鲁棒性,完成能够满足电力系统复杂环境下的语音指令识别需求。研究还指出了一些改进和完善的方向,以进一步提升算法性能,满足更广泛的实际应用需求。 展开更多
关键词 电力系统 机器学习 语音指令 语音识别 信号处理
下载PDF
全局和时序结构特征并用的语音信号情感特征识别方法 被引量:15
11
作者 赵力 王治平 +2 位作者 卢韦 邹采荣 吴镇扬 《自动化学报》 EI CSCD 北大核心 2004年第3期423-429,共7页
在利用全局特征进行语音情感特征分析的基础上,提出了采用情感语句中各元音时序结构作为新的特征,并针对不同语句中包含不同元音个数的情况,提出了零补齐、全局均值补齐、前均值补齐三种不同的规整方法.以从10名话者中搜集的带有欢快、... 在利用全局特征进行语音情感特征分析的基础上,提出了采用情感语句中各元音时序结构作为新的特征,并针对不同语句中包含不同元音个数的情况,提出了零补齐、全局均值补齐、前均值补齐三种不同的规整方法.以从10名话者中搜集的带有欢快、愤怒、惊奇、悲伤4种情感的1000句语句作为样本,本文对语音情感特征进行了分析.实验结果表明利用全局特征和时序特征相结合,对时序特征采用前均值补齐,同时使用修正二次判别函数(MQDF)进行情感识别能够获得94%的平均情感识别率. 展开更多
关键词 语音信号 情感特征分析 修正二次判别函数 情感识别
下载PDF
一种基于奇异值分解的带噪语音识别方法 被引量:9
12
作者 徐金甫 韦岗 梁树雄 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第1期91-93,共3页
提出了一种抗噪声的语音识别方法 .用于训练和用于测试的语音信号在提取特征之前 ,均需经过相同的奇异值分解滤波 .本文还提出了一种滤波参数的选取方法 .实验证明 ,采用这种方法可以大幅度提高传统隐马尔可夫模型语音识别系统的抗噪声... 提出了一种抗噪声的语音识别方法 .用于训练和用于测试的语音信号在提取特征之前 ,均需经过相同的奇异值分解滤波 .本文还提出了一种滤波参数的选取方法 .实验证明 ,采用这种方法可以大幅度提高传统隐马尔可夫模型语音识别系统的抗噪声性能 . 展开更多
关键词 语音处理 语音识别 信号处理 抗噪声性能 奇异值分解滤波 隐弥可夫模型 噪声消减
下载PDF
临界频带子波变换用于混叠语音分离的研究 被引量:7
13
作者 赵鹤鸣 朱祺 +1 位作者 陈雪勤 俞一彪 《声学学报》 EI CSCD 北大核心 2004年第2期177-181,共5页
以反映听觉特性的临界频带子波变换为工具,对混叠语音进行了分析,提出了一种基于临界频带子波变换的混叠语音源信号基音分离和检测方法,在此基础上利用数字多谐振荡器的选频特性,有效地获取构成混叠语音的每个语音信号的各谐波分量,以... 以反映听觉特性的临界频带子波变换为工具,对混叠语音进行了分析,提出了一种基于临界频带子波变换的混叠语音源信号基音分离和检测方法,在此基础上利用数字多谐振荡器的选频特性,有效地获取构成混叠语音的每个语音信号的各谐波分量,以此实现从混叠语音中分离出各源信号。实验结果表明混叠语音分离方法是可行有效的。 展开更多
关键词 临界频带子波变换 混叠语音分离 混叠语音源信号 基音分离 基音检测 语音通信 声学目标检测 声音信号增强 基音提取
下载PDF
语音情感特征提取和识别的研究与实现 被引量:16
14
作者 詹永照 曹鹏 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2005年第1期72-75,共4页
针对语音情感识别的实时性与可用性问题,提出了利用汉明窗提取语音信号中情感特征的 方法,从说话者中采集带有快乐、愤怒、惊奇、悲伤情感的语句,并从语句中提取8个情感特征参数. 同时提出采用贡献分析法确定情感特征参数的权值,利用加... 针对语音情感识别的实时性与可用性问题,提出了利用汉明窗提取语音信号中情感特征的 方法,从说话者中采集带有快乐、愤怒、惊奇、悲伤情感的语句,并从语句中提取8个情感特征参数. 同时提出采用贡献分析法确定情感特征参数的权值,利用加权欧氏距离模板匹配识别语音情感.实 验表明该方法识别率有提高,更适合实时识别的应用. 展开更多
关键词 语音信号 汉明窗 情感特征分析 加权欧氏距离 情感识别
下载PDF
MP稀疏分解快速算法及其在语音识别中的应用 被引量:11
15
作者 李雨昕 尹忠科 王建英 《计算机工程与应用》 CSCD 北大核心 2010年第1期122-124,128,共4页
提出一种新的基于Matching Pursui(tMP)的语音信号稀疏分解算法。在对语音信号稀疏分解中使用的过完备原子库进行划分的基础上,将内积运算转换成互相关运算,并结合语音信号与原子是实的特性,利用Fast Hartley Transform(FHT)快速实现互... 提出一种新的基于Matching Pursui(tMP)的语音信号稀疏分解算法。在对语音信号稀疏分解中使用的过完备原子库进行划分的基础上,将内积运算转换成互相关运算,并结合语音信号与原子是实的特性,利用Fast Hartley Transform(FHT)快速实现互相关运算。从而比利用FFT实现基于MP的信号稀疏分解节省一半的存储空间,提高分解速度约24.8%。此外,应用改进后的算法对语音信号进行特征提取,并结合语音信号的美尔(Mel)频率倒谱参数一起作为该信号的特征向量,通过Support Vector Machine(SVM)进行识别,最后通过实验验证了方法的有效性。 展开更多
关键词 语音信号处理 稀疏分解 匹配追踪 语音识别
下载PDF
听觉模型反演方法及其应用 被引量:4
16
作者 赵鹤鸣 王永琦 陈雪勤 《声学学报》 EI CSCD 北大核心 2005年第6期530-535,共6页
听觉模型已应用于语音信号处理的许多方面,并已取得了较好的结果。论文根据目前应用较为广泛的听觉模型,提出了模型中各部分的逆变换。首先通过对自相关图谱逆变换并经迭代运算重构相位信息恢复神经发放率,再经半波整流逆运算恢复负半... 听觉模型已应用于语音信号处理的许多方面,并已取得了较好的结果。论文根据目前应用较为广泛的听觉模型,提出了模型中各部分的逆变换。首先通过对自相关图谱逆变换并经迭代运算重构相位信息恢复神经发放率,再经半波整流逆运算恢复负半部分信号,最后对描述内毛细胞、突触模型的相关方程进行逆运算和Gammatone逆滤波,构成整个听觉模型的反演方法。作为应用论文提出了一种基于听觉模型逆变换的含噪语音增强方法。实验结果表明,该方法对含噪语音有很好的降噪效果,特别是当信噪比较低时,该方法较常用的方法更为有效。论文提出的听觉模型逆变换方法可应用于语音增强等领域。 展开更多
关键词 听觉模型 反演方法 应用 语音信号处理 逆变换 信息恢复 迭代运算 半波整流 相关方程
下载PDF
一种低码率声码器系统的设计及实现 被引量:4
17
作者 刘嘉勇 方勇 +1 位作者 朱立东 葛艳 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 1999年第3期512-517,共6页
在简单介绍G.723.1编解码算法及语音编解码协处理器CT8020后,给出了一种低码率声码器系统的硬件和软件设计及实现方法。
关键词 语音压缩 语音信号处理 声码器 低码率声码器
下载PDF
基于视频三音子的汉语双模态语料库的建立 被引量:6
18
作者 赵晖 林成龙 唐朝京 《中文信息学报》 CSCD 北大核心 2009年第5期98-103,共6页
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中... 为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。 展开更多
关键词 计算机应用 中文信息处理 可视语音合成 双模态语料 视频三音子 评估函数
下载PDF
一种基于支持向量机的含噪语音的清/浊/静音分类的新方法 被引量:12
19
作者 齐峰岩 鲍长春 《电子学报》 EI CAS CSCD 北大核心 2006年第4期605-611,共7页
本文将支持向量机(SVM)方法应用于语音信号的清/浊/静音检测中,提出并验证了一种在各种信噪比等级下将语音信号有效地分为清音、浊音和静音三类信号的新型分类算法.首先,在高信噪比情况下,本文采用了G.729B VAD中的四个差分参数作为SVM... 本文将支持向量机(SVM)方法应用于语音信号的清/浊/静音检测中,提出并验证了一种在各种信噪比等级下将语音信号有效地分为清音、浊音和静音三类信号的新型分类算法.首先,在高信噪比情况下,本文采用了G.729B VAD中的四个差分参数作为SVM分类器的输入特征参数,进行了静音分类的对比实验,得到了优于G.729B VAD和BP神经网络传统算法的实验结果,说明引入这种机器学习方法做语音分类是可行的,并分析讨论了在核函数不同的情况下支持向量机在实验中所表现出的性能.其次,又讨论了在低信噪比条件下,如何通过对含噪语音建立统计模型,提取对噪音免疫的统计特征参数,并给出了一种对时变背景噪声自适应的估计方法.最后,通过在不同噪音环境下的对比实验结果,验证了本文所提出的算法在中低信噪比情况下的分类性能要优于其他传统算法. 展开更多
关键词 支持向量机 统计学习 统计信号处理 模式识别 语音编码
下载PDF
可穿戴计算机中的语音处理技术 被引量:2
20
作者 韩纪庆 张磊 +1 位作者 吕成国 王承发 《计算机科学》 CSCD 北大核心 2002年第5期107-109,共3页
1 引言 可穿戴计算机(Wearable computer)是一种全新概念的微型个人移动计算系统,它可以穿戴在身上随着使用者一起移动,随时可以接受使用者的命令,并能自动地反馈给使用者重要的信息.可穿戴计算机的概念于1955年被提出,然而直到近年来... 1 引言 可穿戴计算机(Wearable computer)是一种全新概念的微型个人移动计算系统,它可以穿戴在身上随着使用者一起移动,随时可以接受使用者的命令,并能自动地反馈给使用者重要的信息.可穿戴计算机的概念于1955年被提出,然而直到近年来才得到了真正的发展.目前美国、日本、德国、澳大利亚等国都对可穿戴计算机的研究非常重视.我国的一些高校和研究单位,如哈尔滨工业大学、重庆大学、兵器部208所、58所等也于近年来在国内率先开展了这方面的工作. 展开更多
关键词 语音处理 语音识别 模板匹配 语音信号 可穿戴计算机
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部