期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
Study on Unequal Error Protection for Distributed Speech Recognition System
1
作者 谢湘 王思遥 刘家康 《Journal of Beijing Institute of Technology》 EI CAS 2006年第2期201-205,共5页
The unequal error protection (UEP) is applied in distributed speech recognition (DSR) system and three schemes are proposed. All of these three schemes are evaluated on the GSM simulating platform for recognizing ... The unequal error protection (UEP) is applied in distributed speech recognition (DSR) system and three schemes are proposed. All of these three schemes are evaluated on the GSM simulating platform for recognizing mandarin digit strings and compared with the equal error protection (EEP) scheme. Experiments show that UEP can protect the data transmitted in DSR system more effectively, which results in a higher word accurate rate of DSR system. 展开更多
关键词 distributed speech recognition (dsr unequal error protection (UEP) global system mobile (GSM)
下载PDF
Transmission Considerations with QoS Support to Deliver Real-Time Distributed Speech Recognition Applications
2
作者 Zhu Xiao-gang Zhu Hong-wen Rong Meng-tian 《Wuhan University Journal of Natural Sciences》 EI CAS 2002年第1期65-70,共6页
Distributed speech recognition (DSR) applications have certain QoS (Quality of service) requirements in terms of latency, packet loss rate, etc. To deliver quality guaranteed DSR application over wirelined or wireless... Distributed speech recognition (DSR) applications have certain QoS (Quality of service) requirements in terms of latency, packet loss rate, etc. To deliver quality guaranteed DSR application over wirelined or wireless links, some QoS mechanisms should be provided. We put forward a RTP/RSVP transmission scheme with DSR-specific payload and QoS parameters by modifying the present WAP protocol stack. The simulation result shows that this scheme will provide adequate network bandwidth to keep the real-time transport of DSR data over either wirelined or wireless channels. 展开更多
关键词 distributed speech recognition quality of service real-time transmission protocol resource reservation protocol wireless application protocol
下载PDF
Subspace Distribution Clustering HMM for Chinese Digit Speech Recognition
3
作者 秦伟 韦岗 《Journal of Electronic Science and Technology of China》 2006年第1期43-46,共4页
As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribut... As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribution Clustering Hidden Markov Model (SDCHMM), derived from the Continuous Density Hidden Markov Model (CDHMM), is introduced. With parameter tying, a new method to train SDCHMMs is described. Compared with the conventional training method, an SDCHMM recognizer trained by means of the new method achieves higher accuracy and speed. Experiment results show that the SDCHMM recognizer outperforms the CDHMM recognizer on speech recognition of Chinese digits. 展开更多
关键词 speech recognition Subspace distribution Clustering Hidden Markov Model(SDCHMM) Continuous Density Hidden Markov Model (CDHMM) parameter tying
下载PDF
Arabic Speech Recognition System Based on MFCC and HMMs 被引量:2
4
作者 Hussien A.Elharati Mohamed Alshaari Veton Z.Kepuska 《Journal of Computer and Communications》 2020年第3期28-34,共7页
Speech recognition allows the machine to turn the speech signal into text through identification and understanding process. Extract the features, predict the maximum likelihood, and generate the models of the input sp... Speech recognition allows the machine to turn the speech signal into text through identification and understanding process. Extract the features, predict the maximum likelihood, and generate the models of the input speech signal are considered the most important steps to configure the Automatic Speech Recognition System (ASR). In this paper, an automatic Arabic speech recognition system was established using MATLAB and 24 Arabic words Consonant-Vowel Consonant-Vowel Consonant-Vowel (CVCVCV) was recorded from 19 Arabic native speakers, each speaker uttering the same word 3 times (total 1368 words). In order to test the system, 39-features were extracted by partitioning the speech signal into frames ~ 0.25 sec shifted by 0.10 sec. in back-end, the statistical models were generated by separated the features into number of states between 4 to 10, each state has 8-gaussian distributions. The data has 48 k sample rate and 32-bit depth and saved separately in a wave file format. The system was trained in phonetically rich and balanced Arabic speech words list (10 speakers * 3 times * 24 words, total 720 words) and tested using another word list (24 words * 9 speakers * 3 times *, total 648 words). Using different speakers similar words, the system obtained a very good word recognition accuracy results of 92.92% and a Word Error Rate (WER) of 7.08%. 展开更多
关键词 speech recognition Feature Extraction Maximum LIKELIHOOD GAUSSIAN distribution Consonant-Vowel
下载PDF
Distributed Speech Recognition Systems and Some Key Factors Affecting It's Performance
5
作者 YE Lei,YANG Zhen(Department of Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, P.R.China) 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2003年第4期71-75,共5页
In this paper we first analyze the Distributed Speech Recognition (DSR)system and the key factors that affect it's performance and then focus on the research on therelationship between the length of testing speech... In this paper we first analyze the Distributed Speech Recognition (DSR)system and the key factors that affect it's performance and then focus on the research on therelationship between the length of testing speech and the recognition accuracy of the system . Someexperimental results are given at last. 展开更多
关键词 distributed speech recognition mel cepstral coefficients gaussian maturemodel (GMM) model
原文传递
基于语音识别技术的配电网多任务协调优化调度
6
作者 伍铭妍 潘旻琪 +2 位作者 梁中熙 杜乐 王国庆 《电子设计工程》 2024年第14期86-90,共5页
针对多任务调度受到不稳定耦合影响,造成数据不完全拟合,从而影响调度效果的问题,提出了基于语音识别技术的配电网多任务协调优化调度方法。根据不同任务间的类别映射关系,计算配电网多任务协调概率,确定多任务适合的调度语音场景。根... 针对多任务调度受到不稳定耦合影响,造成数据不完全拟合,从而影响调度效果的问题,提出了基于语音识别技术的配电网多任务协调优化调度方法。根据不同任务间的类别映射关系,计算配电网多任务协调概率,确定多任务适合的调度语音场景。根据该场景设计基于语音识别的调度控制流程。结合禁忌搜索算法获取最优位置数据,避免出现不稳态解耦情况。构建PID控制器,通过导数定义迭代步骤,协调调度步长。通过设计语音识别智能控制平台,引入极小正值,实现配电网多任务协调优化调度。由实验结果可知,该调度技术数据拟合曲线与标准拟合曲线吻合,且送电时间与实际控制时间的偏差仅为2 min,调度效果精准。 展开更多
关键词 语音识别技术 配电网多任务 协调优化调度 语音场景
下载PDF
Nonlinear Time-Frequency Distributions of Spectrum Energy Operator in Large Vocabulary Mandarin Speaker Independent Speech Recognition System 被引量:1
7
作者 FadhilH.T.Al-dulaimy 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2003年第6期667-671,共5页
This work demonstrates the use of the nonlinear time-frequency distribution (NLTFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature i... This work demonstrates the use of the nonlinear time-frequency distribution (NLTFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processing stage and using NLTFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test. 展开更多
关键词 large vocabulary speech recognition duration distribution based hidden Markov module robust feature energy operator
原文传递
基于DSR的语音信息提取系统设计
8
作者 徐晓彩 《信息技术》 2012年第5期164-167,共4页
介绍了一种基于分布式语音识别(DSR)的语音信息提取系统的设计。在客户端提取语音特征向量,编码后经过信道传输至服务器端,在服务器端用HTK工具进行语音的识别,使用Stanford parser进行句法分析以提取关键信息。通过仿真实验,该系统实... 介绍了一种基于分布式语音识别(DSR)的语音信息提取系统的设计。在客户端提取语音特征向量,编码后经过信道传输至服务器端,在服务器端用HTK工具进行语音的识别,使用Stanford parser进行句法分析以提取关键信息。通过仿真实验,该系统实现了语音信息的提取。 展开更多
关键词 分布式语音识别 HTK STANFORD PARSER
下载PDF
基于决策边界优化域自适应的跨库语音情感识别 被引量:1
9
作者 汪洋 傅洪亮 +3 位作者 陶华伟 杨静 谢跃 赵力 《计算机应用》 CSCD 北大核心 2023年第2期374-379,共6页
域自适应算法被广泛应用于跨库语音情感识别中;然而,许多域自适应算法在追求减小域差异的同时,丧失了目标域样本的鉴别性,导致其以高密度的形式存在于模型决策边界处,降低了模型的性能。基于此,提出一种基于决策边界优化域自适应(DBODA... 域自适应算法被广泛应用于跨库语音情感识别中;然而,许多域自适应算法在追求减小域差异的同时,丧失了目标域样本的鉴别性,导致其以高密度的形式存在于模型决策边界处,降低了模型的性能。基于此,提出一种基于决策边界优化域自适应(DBODA)的跨库语音情感识别方法。首先利用卷积神经网络进行特征处理,随后将特征送入最大化核范数及均值差异(MNMD)模块,在减小域间差异的同时,最大化目标域情感预测概率矩阵的核范数,从而提升目标域样本的鉴别性并优化决策边界。在以Berlin、eNTERFACE和CASIA语音库为基准库设立的六组跨库实验中,所提方法的平均识别精度领先于其他算法1.68~11.01个百分点,说明所提模型有效降低了决策边界的样本密度,提升了预测的准确性。 展开更多
关键词 跨库语音情感识别 卷积神经网络 决策边界优化 域自适应 特征分布差异
下载PDF
面向变电站智能运检的声音谱特征语音识别方法 被引量:1
10
作者 高宝明 孙国繁 +3 位作者 冯俊杰 段雨松 刘霄 杨爱民 《高压电器》 CAS CSCD 北大核心 2023年第11期40-47,共8页
语音识别是变电站智能运检中关键的人机交互技术。然而,由于生产环境中存在使用专业术语多和噪声大的问题,传统的语音识别方法的效果受限。为此,文中提出了一种基于声音谱特征的语音识别方法。通过融合MFCC与CQT谱,形成一种基于声音谱... 语音识别是变电站智能运检中关键的人机交互技术。然而,由于生产环境中存在使用专业术语多和噪声大的问题,传统的语音识别方法的效果受限。为此,文中提出了一种基于声音谱特征的语音识别方法。通过融合MFCC与CQT谱,形成一种基于声音谱的特征参数,通过对参数分布的估计,能够有效地降低语音信息中的噪声干扰。为提升语音识别性能,文中设计一个端到端的语音识别模型。该模型基于卷积神经网络(CNN),并融合了CTC和注意力机制。CNN网络能够有效地捕捉语音数据中的局部模式和结构信息,而CTC和注意力机制在解码过程中起到关键作用。文中使用Aurora、Aishell以及运检语音数据集进行了实验评估,比较了语音降噪、语音识别同传统方法的效果。实验结果表明,所提出的语音识别模型取得了显著的性能提升,可为相关领域的研究和应用提供有价值的参考。 展开更多
关键词 智能运检 语音识别 声音谱特性 分布估计 卷积神经网络
下载PDF
语音识别技术在配电网工程建设中的应用 被引量:1
11
作者 郁小强 田毅帅 +2 位作者 韩磊 王忠军 李寿荣 《信息技术》 2023年第8期65-69,76,共6页
为了实现配电网调度的智能语音交互,研究基于连续时序分类(CTC)和注意力机制的端到端语音识别技术,构建改进CTC-ATT语音识别模型,并利用循环神经网络自适应映射模型进行优化。实验结果表明,改进CTC-ATT语音识别模型对配电网调度指令和... 为了实现配电网调度的智能语音交互,研究基于连续时序分类(CTC)和注意力机制的端到端语音识别技术,构建改进CTC-ATT语音识别模型,并利用循环神经网络自适应映射模型进行优化。实验结果表明,改进CTC-ATT语音识别模型对配电网调度指令和调度术语的识别正确率分别为92.45%和91.99%,能对配电网的调度指令术语进行高效精准地识别,帮助调度人员提升配电网调度的效率,对配电网工程的建设发展具有实用意义,为智能调度领域的发展提供了新的研究思路。 展开更多
关键词 语音识别 配电网 CTC 注意力机制 循环神经网络
下载PDF
Peripheral Nonlinear Time Spectrum Features Algorithm for Large Vocabulary Mandarin Automatic Speech Recognition 被引量:1
12
作者 Fadhil H.T.Al-dulaimy 王作英 《Tsinghua Science and Technology》 SCIE EI CAS 2005年第2期174-182,共9页
This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm ob... This work describes an improved feature extractor algorithm to extract the peripheral features of point x(ti,fj) using a nonlinear algorithm to compute the nonlinear time spectrum (NL-TS) pattern. The algo- rithm observes n×n neighborhoods of the point in all directions, and then incorporates the peripheral fea- tures using the Mel frequency cepstrum components (MFCCs)-based feature extractor of the Tsinghua elec- tronic engineering speech processing (THEESP) for Mandarin automatic speech recognition (MASR) sys- tem as replacements of the dynamic features with different feature combinations. In this algorithm, the or- thogonal bases are extracted directly from the speech data using discrite cosime transformation (DCT) with 3×3 blocks on an NL-TS pattern as the peripheral features. The new primal bases are then selected and simplified in the form of the ?dp- operator in the time direction and the ?dp- operator in the frequency di- t f rection. The algorithm has 23.29% improvements of the relative error rate in comparison with the standard MFCC feature-set and the dynamic features in tests using THEESP with the duration distribution-based hid- den Markov model (DDBHMM) based on MASR system. 展开更多
关键词 large vocabulary speech recognition Mandarin automatic speech recognition (MASR) dura- tion distribution-based hidden Markov model (DDBHMM) feature identification
原文传递
Adaptive Compensation Algorithm in Open Vocabulary Mandarin Speaker-Independent Speech Recognition
13
作者 FadhilH.T.Al-dulaimy 王作英 田野 《Tsinghua Science and Technology》 SCIE EI CAS 2002年第5期521-526,共6页
In speech recognition systems, the physiological characteristics of the speech production model cause the voiced sections of the speech signal to have an attenuation of approximately 20 dB per decade. Many speech rec... In speech recognition systems, the physiological characteristics of the speech production model cause the voiced sections of the speech signal to have an attenuation of approximately 20 dB per decade. Many speech recognition algorithms have been developed to solve this problem by filtering the input signal with a single-zero high pass filter. Unfortunately, this technique increases the noise energy at high frequencies above 4 kHz, which in some cases degrades the recognition accuracy. This paper solves the problem using a pre-emphasis filter in the front end of the recognizer. The aim is to develop a modified parameterization approach taking into account the whole energy zone in the spectrum to improve the performance of the existing baseline recognition system in the acoustic phase. The results show that a large vocabulary speaker-independent continuous speech recognition system using this approach has a greatly improved recognition rate. 展开更多
关键词 mel-frequency cepstrum coefficients speech recognition duration distribution based hidden Markov model
原文传递
BP-Bagging模型在光纤陀螺温度补偿中的应用 被引量:11
14
作者 刘元元 杨功流 李思宜 《中国惯性技术学报》 EI CSCD 北大核心 2014年第2期254-259,共6页
为了消除光纤陀螺的温度效应并提高陀螺的精度,BP神经网络模型广泛的应用在光纤陀螺的零偏温度漂移辨识和补偿中。然而,单神经网络模型的泛化能力差,影响模型的预测结果。结合神经网络集成学习的思想,利用Bagging集成技术产生差异大、... 为了消除光纤陀螺的温度效应并提高陀螺的精度,BP神经网络模型广泛的应用在光纤陀螺的零偏温度漂移辨识和补偿中。然而,单神经网络模型的泛化能力差,影响模型的预测结果。结合神经网络集成学习的思想,利用Bagging集成技术产生差异大、预测能力强的个体网络,提升模型的预测能力。建立光纤陀螺零偏温度的BP-Bagging模型,将其应用在温度补偿中。通过对某型光纤陀螺的零偏漂移数据进行仿真,结果表明:BP-Bagging模型相比线性回归模型、单BP神经网络模型的补偿效果更显著,有效改善了陀螺的零偏稳定性能。 展开更多
关键词 光纤陀螺 神经网络集成 BP-Bagging模型 温度补偿
下载PDF
语音识别中的两级MEL域滤波器组维纳滤波方法 被引量:2
15
作者 刘波 李锦宇 +1 位作者 戴礼荣 王仁华 《信号处理》 CSCD 2004年第2期133-137,126,共6页
欧洲电信标准化协会(European Telecommunications Standards Institute,简称ETSI)于2002年10月发布了分布式语音识别的鲁棒性前端标准。该标准参数的鲁棒性远优于MFCC参数。为了能够在低运算资源的设备上实现鲁棒性前端,在ETSI标准的... 欧洲电信标准化协会(European Telecommunications Standards Institute,简称ETSI)于2002年10月发布了分布式语音识别的鲁棒性前端标准。该标准参数的鲁棒性远优于MFCC参数。为了能够在低运算资源的设备上实现鲁棒性前端,在ETSI标准的核心两级维纳滤波算法的基础上,我们提出了一种新方法以提高算法效率。我们首先在Mel域滤波器组幅度上构造维纳滤波器,然后对维纳滤波器系数进行平滑。最后,将维纳滤波器直接应用到Mel域滤波器组幅度上。实验表明,新方法在保持ETSI两级维纳滤波算法出色性能的同时,大大地降低了运算量。 展开更多
关键词 分布式语音识别 鲁棒性 滤波器 维纳滤波
下载PDF
一种适用于说话人识别的改进Mel滤波器 被引量:8
16
作者 项要杰 杨俊安 +1 位作者 李晋徽 陆俊 《计算机工程》 CAS CSCD 2013年第11期214-217,222,共5页
Mel倒谱系数(MFCC)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适... Mel倒谱系数(MFCC)侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数(IMFCC)更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。 展开更多
关键词 说话人识别 MEL倒谱系数 个性信息 反Mel倒谱系数 频谱分布 语音信号
下载PDF
韵律相关的汉语语音识别系统研究 被引量:3
17
作者 倪崇嘉 刘文举 徐波 《计算机应用研究》 CSCD 北大核心 2011年第8期2941-2945,共5页
首先,给出结合韵律信息的系统框架。然后,针对汉语的特点,解决了韵律相关的语音识别系统中建模单元选择、模型训练等问题,并在多空间概率分布隐马尔可夫模型(multiple-space distribution hidden Markov mod-el,MSD-HMM)框架下构建了韵... 首先,给出结合韵律信息的系统框架。然后,针对汉语的特点,解决了韵律相关的语音识别系统中建模单元选择、模型训练等问题,并在多空间概率分布隐马尔可夫模型(multiple-space distribution hidden Markov mod-el,MSD-HMM)框架下构建了韵律相关的语音识别系统。最后,通过语音识别的实验验证了方法的有效性。在"863"测试集上,该方法能够达到76.18%的带调音节识别正确率。 展开更多
关键词 韵律 语音识别 基频 多空间概率分布隐马尔可夫模型(MSD-HMM)
下载PDF
说话人识别中测试时长与识别率关系研究 被引量:1
18
作者 孙林慧 叶蕾 杨震 《计算机仿真》 CSCD 2005年第5期231-233,258,共4页
测试时长是影响说话人识别问题的主要因素之一。该文主要对分布式语音识别中测试时长与说话人识别率的关系进行了研究。文中采用文本无关的训练模板,首先对基本的说话人辨认系统用干净语音和带噪语音进行了测试,结果表明系统识别率随测... 测试时长是影响说话人识别问题的主要因素之一。该文主要对分布式语音识别中测试时长与说话人识别率的关系进行了研究。文中采用文本无关的训练模板,首先对基本的说话人辨认系统用干净语音和带噪语音进行了测试,结果表明系统识别率随测试时长的增加而提高,并在实验室条件下获得加噪语音最佳测试时长。其次为了减小最佳测试时长采用改进的说话人辨认系统,先对说话人的性别进行分类然后再对其身份进行识别,不仅减少了测试所需的最佳时长,而且提高了系统的抗噪性能。最后对仿真结果进行了分析。 展开更多
关键词 分布式语音识别 测试时长 说话人辨认 识别率
下载PDF
基于DCOM的分布式电话语音识别系统
19
作者 刘鹏 田野 王作英 《计算机工程与应用》 CSCD 北大核心 2002年第14期4-5,35,共3页
文章讨论了一个分布式电话语音识别系统的设计与实现。首先介绍了系统的框架结构和基于DCOM的进程间通信;然后给出了系统主要模块的功能和实现方法,并讨论了针对分布式系统和语音识别的特点而进行的性能优化。
关键词 DCOM 分布式电话语音识别系统 分布式组件对象模型
下载PDF
基于分层增长语音活动检测的鲁棒性说话人识别
20
作者 解焱陆 张劲松 +1 位作者 刘明辉 黄中伟 《深圳大学学报(理工版)》 EI CAS 北大核心 2012年第4期328-334,共7页
基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building... 基于欧洲电信标准化协会颁布的分布式语音识别和前端标准(ETSI-DSR-AFE).针对分布式说话人识别噪声鲁棒性较差的问题,提出一种新的前端处理方法.该方法以似然距离为测度,对语音进行无监督聚类,为减少计算量,采用分层增长(level-building)方法进行逐层分割,从而准确找出语音和静音的边界点.实验结果表明,用该方法改进ETSI-DSR-AFE标准后,信噪比在大于0 dB时,说话人辨认系统识别率相对改进了18.9%,相对原有的Mel频率倒谱系数(Mel-frequenly Ceptral coefficients,MFCC)系统识别率改进了60.7%. 展开更多
关键词 语音信号处理 说话人识别 分布式语音识别 分层增长 语音活动检测 似然距离
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部