期刊文献+
共找到261篇文章
< 1 2 14 >
每页显示 20 50 100
Application of formant instantaneous characteristics to speech recognition and speaker identification
1
作者 侯丽敏 胡晓宁 谢娟敏 《Journal of Shanghai University(English Edition)》 CAS 2011年第2期123-127,共5页
This paper proposes a new phase feature derived from the formant instantaneous characteristics for speech recognition (SR) and speaker identification (SI) systems. Using Hilbert transform (HT), the formant chara... This paper proposes a new phase feature derived from the formant instantaneous characteristics for speech recognition (SR) and speaker identification (SI) systems. Using Hilbert transform (HT), the formant characteristics can be represented by instantaneous frequency (IF) and instantaneous bandwidth, namely formant instantaneous characteristics (FIC). In order to explore the importance of FIC both in SR and SI, this paper proposes different features from FIC used for SR and SI systems. When combing these new features with conventional parameters, higher identification rate can be achieved than that of using Mel-frequency cepstral coefficients (MFCC) parameters only. The experiment results show that the new features are effective characteristic parameters and can be treated as the compensation of conventional parameters for SR and SI. 展开更多
关键词 instantaneous frequency (IF) Hilbert transform (HT) speech recognition speaker identification Mel-frequency cepstral coefficients (MFCC)
下载PDF
A Combined Speaker Adaptation Method for Mandarin Speech Recognition
2
作者 徐向华 朱杰 《Journal of Shanghai Jiaotong university(Science)》 EI 2004年第4期21-24,共4页
A speaker adaptation method that combines transformation matrix linear interpolation with maximum a posteriori (MAP) was proposed. Firstly this method can keep the asymptotical characteristic of MAP. Secondly, as the ... A speaker adaptation method that combines transformation matrix linear interpolation with maximum a posteriori (MAP) was proposed. Firstly this method can keep the asymptotical characteristic of MAP. Secondly, as the method uses linear interpolation with several speaker-dependent (SD) transformation matrixes, it can fully use the prior knowledge and keep fast adaptation. The experimental results show that the combined method achieves an 8.24% word error rate reduction with only one adaptation utterance, and keeps asymptotic to the performance of SD model for large amounts of adaptation data. 展开更多
关键词 speech recognition speaker adaptation maximum a posteriori (MAP) maximum likelihood model interpolation (MLMI)
下载PDF
Comparative Study on VQ-Based Efficient Mandarin Speech Recognition Method
3
作者 谢湘 赵军辉 匡镜明 《Journal of Beijing Institute of Technology》 EI CAS 2002年第3期266-270,共5页
A VQ based efficient speech recognition method is introduced, and the key parameters of this method are comparatively studied. This method is especially designed for mandarin speaker dependent small size word set r... A VQ based efficient speech recognition method is introduced, and the key parameters of this method are comparatively studied. This method is especially designed for mandarin speaker dependent small size word set recognition. It has less complexity, less resource consumption but higher ARR (accurate recognition rate) compared with traditional HMM or NN approach. A large scale test on the task of 11 mandarin digits recognition shows that the WER(word error rate) can reach 3 86%. This method is suitable for being embedded in PDA (personal digital assistant), mobile phone and so on to perform voice controlling like digits dialing, name dialing, calculating, voice commanding, etc. 展开更多
关键词 speech recognition vector quantization(VQ) speaker dependent digits recognition
下载PDF
Adaptive bands filter bank optimized by genetic algorithm for robust speech recognition system 被引量:5
4
作者 黄丽霞 G.Evangelista 张雪英 《Journal of Central South University》 SCIE EI CAS 2011年第5期1595-1601,共7页
Perceptual auditory filter banks such as Bark-scale filter bank are widely used as front-end processing in speech recognition systems.However,the problem of the design of optimized filter banks that provide higher acc... Perceptual auditory filter banks such as Bark-scale filter bank are widely used as front-end processing in speech recognition systems.However,the problem of the design of optimized filter banks that provide higher accuracy in recognition tasks is still open.Owing to spectral analysis in feature extraction,an adaptive bands filter bank (ABFB) is presented.The design adopts flexible bandwidths and center frequencies for the frequency responses of the filters and utilizes genetic algorithm (GA) to optimize the design parameters.The optimization process is realized by combining the front-end filter bank with the back-end recognition network in the performance evaluation loop.The deployment of ABFB together with zero-crossing peak amplitude (ZCPA) feature as a front process for radial basis function (RBF) system shows significant improvement in robustness compared with the Bark-scale filter bank.In ABFB,several sub-bands are still more concentrated toward lower frequency but their exact locations are determined by the performance rather than the perceptual criteria.For the ease of optimization,only symmetrical bands are considered here,which still provide satisfactory results. 展开更多
关键词 perceptual filter banks bark scale speaker independent speech recognition systems zero-crossing peak amplitude genetic algorithm
下载PDF
基于噪声破坏和波形重建的声纹对抗样本防御方法
5
作者 魏春雨 孙蒙 +2 位作者 张雄伟 邹霞 印杰 《信息安全学报》 CSCD 2024年第1期71-83,共13页
语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点... 语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自注意力和层间交叉注意力机制,使改进后的模型更有助于防御声纹对抗样本攻击。实验表明,提出的防御方法不依赖于特定声纹识别系统和对抗样本攻击方式,在两种典型的声纹识别系统下对多种类型对抗样本攻击的防御效果均优于其他预处理防御方法。 展开更多
关键词 声纹识别 噪声破坏 语音增强 对抗样本防御
下载PDF
基于UniSpeech-SDA80D51的车载音响声控系统 被引量:1
6
作者 王琼 郭恒飞 孙保群 《电子技术应用》 北大核心 2011年第5期42-44,48,共4页
提出一种语音命令控制车载音响操作的设计方案,以德国Infineon公司新推出的具有DSP和单片机双核的SoC语音处理芯片UniSpeech-SDA80D51为核心组成非特定人车载音响语音控制系统,并实现了系统样机的研制。该系统在江淮同悦SL1102C1型车载... 提出一种语音命令控制车载音响操作的设计方案,以德国Infineon公司新推出的具有DSP和单片机双核的SoC语音处理芯片UniSpeech-SDA80D51为核心组成非特定人车载音响语音控制系统,并实现了系统样机的研制。该系统在江淮同悦SL1102C1型车载音响上进行了语音控制实测,实测数据表明系统语音识别率可达到95%。 展开更多
关键词 非特定人语音识别 车载音响语音控制 Unispeech—SDA80D51 隐马尔可夫模型
下载PDF
基于卷积神经网络的嵌入式视觉感知交互系统设计与实现 被引量:1
7
作者 陶金 王智勇 +1 位作者 林鸿生 周怡伶 《科技创新与应用》 2024年第3期35-39,共5页
针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、... 针对语音智能助理无法提供周围环境的视觉感知问题,该文设计并实现一个视觉感知交互系统。该系统的基本结构由语音识别、语音播放、图像采集、中央处理控制等模块组成,具备语音交互、目标检测等功能。该系统设计选择语音识别专用芯片、利用卷积神经网络技术完成识别,采用基于图分割截块的算法进行目标分割。实验结果表明,系统性能良好,能够实现对周围环境的视觉感知并进行语音交互。 展开更多
关键词 卷积神经网络 视觉感知 嵌入式 语音识别 图分割截块
下载PDF
基于迁移学习双阶段训练的情感语音克隆技术
8
作者 李囡 郭浩 相洁 《计算机工程与设计》 北大核心 2024年第5期1533-1540,共8页
为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段... 为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段,采用情感语音数据集对其参数进行微调,提取具有情感信息的说话人特征。将此特征作为合成器的输入对梅尔谱的生成过程进行调节,通过声码器将此梅尔谱转换为具有目标说话人信息的情感语音。主客观分析结果表明,该方法所生成的克隆语音的情感相似度更高,音色相似度也有一定改善。 展开更多
关键词 迁移学习 情感语音克隆 情感语音合成 双阶段训练 说话人识别 说话人编码 参数微调
下载PDF
Speaker Adaptation with Transformation Matrix Linear Interpolation 被引量:1
9
作者 XUXiang-hua ZHUJie 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第6期927-930,共4页
A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With onl... A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With only 3 adaptation sentences, the performance shows a 12.12% word error rate reduction. As the number of adaptation sentences increases, the performance saturates quickly. To improve the behavior of TMLI for large amounts of adaptation data, the TMLI+MAP method which combines TMLI with MAP technique is proposed. Experimental results show TMLI+MAP achieved better recognition accuracy than MAP and MLLR+MAP for both small and large amounts of adaptation data. Key words speech recognition - speaker adaptation - MLLR - MAP - maximum likelihood model interpolation (MLMI) CLC number TN 912. 34 Foundation item: Supported by the Science and Technology Committee of Shanghai (01JC14033)Biography: XU Xiang-hua (1977-), female, Ph. D. candidate, research direction: large vocabulary continuous Mandarin speech recognition and speaker adaptation 展开更多
关键词 speech recognition speaker adaptation MLLR MAP maximum likelihood model interpolation (MLMI)
下载PDF
基于时域波形的半监督端到端虚假语音检测方法
10
作者 方昕 黄泽鑫 +6 位作者 张聿晗 高天 潘嘉 付中华 高建清 刘俊华 邹亮 《计算机应用》 CSCD 北大核心 2023年第1期227-231,共5页
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D... 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。 展开更多
关键词 虚假语音检测 语音合成 音色转换 说话人识别 时域 半监督学习
下载PDF
室内服务机器人人机交互对象语音识别实验 被引量:6
11
作者 梁伊雯 韩子奇 +1 位作者 张志明 孙艺珈 《实验室研究与探索》 CAS 北大核心 2023年第1期30-35,共6页
以人机交互系统中特定对象语音识别功能实验为典型案例,采用引入过减因子与谱下限的谱减法进行含噪语音信号的增强降噪,以混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)为基础,基于梅尔频率倒谱系... 以人机交互系统中特定对象语音识别功能实验为典型案例,采用引入过减因子与谱下限的谱减法进行含噪语音信号的增强降噪,以混合高斯-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)为基础,基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征进行语音对象识别,并部署端到端的深度神经网络普通话语音识别模块,完成综合创新性实验教学任务和创新拓展实践训练。实验表明,部署上述模块的服务机器人能在平均0.896 s时间内准确完成整个流程,证明了设计方案的可行性与有效性。 展开更多
关键词 服务机器人 人机交互 语音识别 说话人识别 语音增强
下载PDF
基于线性预测能量谱系数的自然语音和耳语音的分类研究 被引量:1
12
作者 姚真真 胡金瑶 艾斯卡尔·艾木都拉 《现代电子技术》 2023年第2期85-90,共6页
在进行语音识别之前对自然语音和耳语音进行预分类,再分别放入各自的识别系统,可以提高耳语语音识别系统的识别性能。基于此,文中提出一个新的特征线性预测能量谱系数(LPESC),在该特征的提取过程中,对提取到的频谱图进行切分,以便获取... 在进行语音识别之前对自然语音和耳语音进行预分类,再分别放入各自的识别系统,可以提高耳语语音识别系统的识别性能。基于此,文中提出一个新的特征线性预测能量谱系数(LPESC),在该特征的提取过程中,对提取到的频谱图进行切分,以便获取到更多的语音信息,并将其用于耳语音分类。此外,还特别设计4种不同的滤波器组,并将提取到的特征应用于7个分类器上。实验结果表明,密集的均匀三角滤波器组更加适合提取该特征,在7种传统分类器上均有较好的分类效果,其中SVM分类效果最好。最后,对比LPESC与传统特征(39维的LFCC和MFCC)在7种分类器上的分类效果,验证新特征的有效性。实验还发现,女生的耳语音有更好的分类效果。 展开更多
关键词 语音分类 语音识别 耳语音 线性预测能量谱系数 特征提取 频谱图切分 结果分析 效果验证
下载PDF
虚拟聊天机器人拟人化特征对用户接受的影响
13
作者 刘雨 操雅琴 《人类工效学》 2023年第1期8-15,共8页
目的探讨虚拟聊天机器人拟人化的特征以及拟人化特征如何影响用户对虚拟聊天机器人的接受意愿。方法采用因子分析、多因素方差分析、多元线性回归分析、机器学习(BP神经网络和支持向量SVM)等方法对500名用户的问卷调查数据进行统计分析... 目的探讨虚拟聊天机器人拟人化的特征以及拟人化特征如何影响用户对虚拟聊天机器人的接受意愿。方法采用因子分析、多因素方差分析、多元线性回归分析、机器学习(BP神经网络和支持向量SVM)等方法对500名用户的问卷调查数据进行统计分析。结果虚拟聊天机器人拟人化特征(外观拟人化和对话拟人化)对感知社会性、感知相似性、感知逻辑性、感知对话性产生显著影响;虚拟聊天机器人的拟人化特征越显著,用户心理感知越高,进而情感体验越趋向于积极,用户的接受意愿越强烈;能够利用四个拟人化感知因子对虚拟聊天机器人拟人化程度进行分类,并预测用户对虚拟聊天机器人的接受意愿。结论虚拟聊天机器人拟人化感知的高低会影响情感体验的积极性,从而影响用户对虚拟聊天机器人的接受意愿,研究为未来设计虚拟聊天机器人拟人化特征提供了参考。 展开更多
关键词 人机交互 智能音箱 语音识别 元宇宙 虚拟聊天机器人 拟人化特征 情感体验 用户接受
下载PDF
Speaker-independent speech emotion recognition by fusion of functional and accompanying paralanguage features 被引量:2
14
作者 Qi-rong MAO Xiao-lei ZHAO +1 位作者 Zheng-wei HUANG Yong-zhao ZHAN 《Journal of Zhejiang University-Science C(Computers and Electronics)》 SCIE EI 2013年第7期573-582,共10页
Functional paralanguage includes considerable emotion information, and it is insensitive to speaker changes. To improve the emotion recognition accuracy under the condition of speaker-independence, a fusion method com... Functional paralanguage includes considerable emotion information, and it is insensitive to speaker changes. To improve the emotion recognition accuracy under the condition of speaker-independence, a fusion method combining the functional paralanguage features with the accompanying paralanguage features is proposed for the speaker-independent speech emotion recognition. Using this method, the functional paralanguages, such as laughter, cry, and sigh, are used to assist speech emotion recognition. The contributions of our work are threefold. First, one emotional speech database including six kinds of functional paralanguage and six typical emotions were recorded by our research group. Second, the functional paralanguage is put forward to recognize the speech emotions combined with the accompanying paralanguage features. Third, a fusion algorithm based on confidences and probabilities is proposed to combine the functional paralanguage features with the accompanying paralanguage features for speech emotion recognition. We evaluate the usefulness of the functional paralanguage features and the fusion algorithm in terms of precision, recall, and F1-measurement on the emotional speech database recorded by our research group. The overall recognition accuracy achieved for six emotions is over 67% in the speaker-independent condition using the functional paralanguage features. 展开更多
关键词 speech emotion recognition speaker-INDEPENDENT Functional paralanguage Fusion algorithm recognition accuracy
原文传递
司法话者识别视野下中国人英语语音共性特征综述
15
作者 张彧凤 杨俊杰 《山西警察学院学报》 2023年第4期13-22,共10页
涉及英语语音的司法话者识别中,中国人英语语音共性特征有助于判断犯罪嫌疑人国籍、认定涉案英语检材语音与犯罪嫌疑人样本语音的同一性。根据语言迁移理论,基于已有相关研究,中国人英语语音共性特征体现在音段音位和超音段音位,具体包... 涉及英语语音的司法话者识别中,中国人英语语音共性特征有助于判断犯罪嫌疑人国籍、认定涉案英语检材语音与犯罪嫌疑人样本语音的同一性。根据语言迁移理论,基于已有相关研究,中国人英语语音共性特征体现在音段音位和超音段音位,具体包括替换、添加和脱落某些元音或者辅音,误置重音、过度重读,停顿不当,基本调型单一且多为降调、二级调型选择随意等特点。未来可以开展不同方言区中国人英语语音次共性特征研究,以期为涉及英语语音案件的侦破提供参考,为相关研究提供借鉴。 展开更多
关键词 司法话者识别 中国人英语 语音共性特征 音段 超音段
下载PDF
音强包络面积相对比识别双胞胎同胎个体的可行性探究
16
作者 陈建新 杨俊杰 《山西警察学院学报》 2023年第4期23-28,共6页
为探究音强包络面积相对比识别双胞胎同胎个体的可行性,文章利用语音音节音强包络曲线面积的相对比值,对14对同卵双胞胎同胎个体的语音进行了定量统计实验研究。实验结果表明,在90%、95%、98%的置信度下,实验所用的双胞胎同胎个体能够... 为探究音强包络面积相对比识别双胞胎同胎个体的可行性,文章利用语音音节音强包络曲线面积的相对比值,对14对同卵双胞胎同胎个体的语音进行了定量统计实验研究。实验结果表明,在90%、95%、98%的置信度下,实验所用的双胞胎同胎个体能够较好地被识别开来。进而得出,语音音节音强包络曲线面积的相对比值可以作为识别同卵双胞胎同胎个体的有效参量。 展开更多
关键词 司法话者识别 音强包络面积 同卵双胞胎语音 相对比值
下载PDF
语音识别和说话人识别中各倒谱分量的相对重要性 被引量:74
17
作者 甄斌 吴玺宏 +1 位作者 刘志敏 迟惠生 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第3期371-378,共8页
采用增减特征分量的方法研究了MFCC各维倒谱分量对说话人识别和语音识别的贡献。使用DTW测度 ,在标准英文数字语音库上的实验表明 ,最有用的语音信息包含在MFCC分量C1到C12 之间 ,最有用的说话人信息包含在MFCC分量C2 到C16之间。MFCC分... 采用增减特征分量的方法研究了MFCC各维倒谱分量对说话人识别和语音识别的贡献。使用DTW测度 ,在标准英文数字语音库上的实验表明 ,最有用的语音信息包含在MFCC分量C1到C12 之间 ,最有用的说话人信息包含在MFCC分量C2 到C16之间。MFCC分量C0 和C1包含有负作用的说话人信息 ,将其作为特征会引起识别率的降低。 展开更多
关键词 MFCC 说话人识别 语音识别
下载PDF
语音识别说话人自适应研究现状及发展趋势 被引量:32
18
作者 李虎生 刘加 刘润生 《电子学报》 EI CAS CSCD 北大核心 2003年第1期103-108,共6页
说话人自适应是提高非特定人语音识别系统识别性能的有效手段 .本文介绍了说话人自适应研究的现状 ,包括自适应的不同方式和不同算法 ,并详细介绍了目前应用最为广泛的MLLR算法和MAP算法 .
关键词 研究现状 发展趋势 语音识别 说话人自适应 MLLR算法 MAP算法
下载PDF
基于正则化的本征音说话人自适应方法 被引量:9
19
作者 张文林 张连海 +2 位作者 牛铜 屈丹 李弼程 《自动化学报》 EI CSCD 北大核心 2012年第12期1950-1957,共8页
将正则化方法应用于本征音说话人自适应算法中,有效地解决了说话人子空间基的先验选择问题.通过对似然函数引入适当的正则项,在优化过程中从候选本征音基矢量中自动选择最佳的本征音进行线性组合.本文讨论了三种正则化因子,并给出了其... 将正则化方法应用于本征音说话人自适应算法中,有效地解决了说话人子空间基的先验选择问题.通过对似然函数引入适当的正则项,在优化过程中从候选本征音基矢量中自动选择最佳的本征音进行线性组合.本文讨论了三种正则化因子,并给出了其数学优化算法.l1正则化可以得到说话人因子的稀疏解,其非零项即对应最佳本征音基矢量;l2正则化可以提高解的稳健性,在某种程度上减少了子空间维数的先验选择对识别率的影响;而弹性网正则化则通过线性组合在二者之间取得折衷.有监督说话人自适应实验表明,新方法与本征音方法的最好结果相比,在少量的自适应数据条件下(10s以下),识别率相对提高了近1%~2%.三种方法中,l1正则化略优于l2正则化,而在引入弹性网正则化后,系统性能有了进一步提高. 展开更多
关键词 语音识别 说话人自适应 本征音 正则化 弹性网
下载PDF
嵌入式语音识别系统的研究和实现 被引量:19
20
作者 方敏 浦剑涛 +1 位作者 李成荣 台宪青 《中文信息学报》 CSCD 北大核心 2004年第6期73-78,共6页
本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统 ,同传统的基于PC的非特定人语音识别系统相比 ,该系统具备内存消耗小 ,运算速度快的优点。然后给出了该语音识别系统在多种嵌入式平台上的实现和评估结... 本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统 ,同传统的基于PC的非特定人语音识别系统相比 ,该系统具备内存消耗小 ,运算速度快的优点。然后给出了该语音识别系统在多种嵌入式平台上的实现和评估结果 ,论证了非特定人语音识别系统在嵌入式平台上实现的可行性及其对硬件的最低配置要求 ,在技术层次上分析了目前实现高性能语音识别SOC的主要问题和困难 。 展开更多
关键词 计算机应用 中文信息处理 嵌入式平台 非特定人语音识别 语音识别SOIC
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部