期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于Kaldi的普米语语音识别 被引量:12
1
作者 胡文君 傅美君 潘文林 《计算机工程》 CAS CSCD 北大核心 2018年第1期199-205,共7页
为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声... 为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。 展开更多
关键词 普米语 深度学习 kaldi语音识别工具包 语音识别 鲁棒性
下载PDF
基于Kaldi的语音识别 被引量:4
2
作者 王凯 马明栋 《计算机技术与发展》 2021年第1期13-17,共5页
人工智能技术是当前计算机科学的研究热点,人机通信是人工智能技术的重要组成之一。作为人机通信主要方法之一的语音交互也一直是科学家的研究热点,语音交互技术的关键是语音识别。而目前大多语音识别软件要么功能单一,要么价格昂贵,Ka... 人工智能技术是当前计算机科学的研究热点,人机通信是人工智能技术的重要组成之一。作为人机通信主要方法之一的语音交互也一直是科学家的研究热点,语音交互技术的关键是语音识别。而目前大多语音识别软件要么功能单一,要么价格昂贵,Kaldi作为新兴的开源语音识别工具,凭借其强大的功能和简单的获取渠道逐渐流行。该文介绍了语音识别技术的发展历程,Kadli软件的基本架构和其所具有的独特优势,语音识别的一般处理流程,多层神经网络的基本结构以及多层神经网络在语音识别当中的应用。对基于Kaldi软件当中的HMM-DNN模型,使用中文数据集训练该模型,搭建一个完整的语音识别系统。通过该系统,不仅能展现出Kaldi软件丰富强大的功能,同时也为语音识别研究人员选择合适的工具提供了新的思路。 展开更多
关键词 人机通信 语音识别 kaldi 多层神经网络 HMM-DNN
下载PDF
基于Kaldi的智能语音识别在物联网中的应用研究 被引量:3
3
作者 廖盛澨 曾俊 徐崇 《电声技术》 2022年第1期10-13,共4页
智能语音识别技术是最常见的人类与机器交互的技术。随着物联网设备变得越来越常见,智能语音识别技术将在物联网中得到更广泛的应用。Kaldi作为目前较为优秀的跨平台智能语音识别套件,比较适合移植到物联网设备中。为此,采用煊扬G1为硬... 智能语音识别技术是最常见的人类与机器交互的技术。随着物联网设备变得越来越常见,智能语音识别技术将在物联网中得到更广泛的应用。Kaldi作为目前较为优秀的跨平台智能语音识别套件,比较适合移植到物联网设备中。为此,采用煊扬G1为硬件实现平台,将智能风扇作为控制对象,将Kaldi套件移植到G1平台中。经过实验测试,Kaldi智能语音识别算法的识别度保持在85%以上,表明Kaldi套件可以应用在物联网设备中。由于硬件资源的限制,应该选择更适合的CPU核数、更多硬件平台来运行Kaldi框架,更好地保证智能语音识别的速度。 展开更多
关键词 智能语音识别技术 kaldi 物联网(IoT)
下载PDF
基于Kaldi的AI语音识别在嵌入式系统中的应用研究 被引量:5
4
作者 彭燕子 柏杰 +1 位作者 曹炳尧 宋英雄 《工业控制计算机》 2020年第9期64-67,共4页
Kaldi为目前主流桌面端语音识别的人工智能框架,随着智能家居产品语音识别的需求增长,针对嵌入式硬件实现语音识别显得十分重要。针对Kaldi进行交叉编译并实现了基于ARM Cortex-A72内核的Raspberry Pi 4B嵌入式平台的移植,结合ReSpeaker... Kaldi为目前主流桌面端语音识别的人工智能框架,随着智能家居产品语音识别的需求增长,针对嵌入式硬件实现语音识别显得十分重要。针对Kaldi进行交叉编译并实现了基于ARM Cortex-A72内核的Raspberry Pi 4B嵌入式平台的移植,结合ReSpeaker 2-Mics Pi HAT,使用深度神经网络隐马科夫模型,实现了嵌入式实时离线大词汇量连续语音识别。实验结果表明,Kalid在嵌入式设备上运行语音识别算法时,并非预期的增加语音识别算法使用的CPU核心并行数有利于语音识别的响应时间。由于受制于算法框架和硬件资源的限制,应选择适合硬件条件的核心数来并行运算语音识别算法最佳,从而保证语音识别的速度。 展开更多
关键词 Raspberry Pi 双麦克风 kaldi 语音识别
下载PDF
基于YOLOv5的室内小物品识别定位关键算法研究
5
作者 王映晖 邱文惠 刘广臣 《电脑知识与技术》 2024年第7期15-17,共3页
对于盲人而言,室内寻找水杯、毛巾、遥控器等物品是日常生活中必不可少的技能。由于他们无法依靠视觉来定位和识别物品,因此必须依赖其他感官或工具来进行这项行动。针对盲人寻物困难的痛点,因此主要研究YOLOv5与训练个性化数据集、目... 对于盲人而言,室内寻找水杯、毛巾、遥控器等物品是日常生活中必不可少的技能。由于他们无法依靠视觉来定位和识别物品,因此必须依赖其他感官或工具来进行这项行动。针对盲人寻物困难的痛点,因此主要研究YOLOv5与训练个性化数据集、目标检测技术对室内目标进行检测和定位的理论和实现,辅以Kaldi技术进行语音交互,实现辅助视障人士智能化搜寻和识别室内物品。基于YOLOv5训练个性化数据与特征提取,用于后期物体识别与定位提供数据支持。最后,基于YOLOv5目标检测算法与单目测距进行目标物体的识别与定位。实验结果表明该算法可以准确地识别和定位小物品,实现了室内导航的基本功能。 展开更多
关键词 YOLOv5 目标检测 kaldi 语音交互 单目测距
下载PDF
基于语音识别的智能分类垃圾桶设计与实现 被引量:1
6
作者 王亚磊 季晔 +2 位作者 李彬 冯崇 丁文豪 《现代信息科技》 2023年第17期156-159,共4页
为改善人们的生活体验,提高人们生活的自动化、智能化水平,设计一款基于语音识别的智能分类垃圾桶,实现垃圾桶实时联网、智能分类等功能。该垃圾桶采用Kaldi工具对输入音频进行处理,实现语音识别,识别结果通过串口通信经上位机传输给单... 为改善人们的生活体验,提高人们生活的自动化、智能化水平,设计一款基于语音识别的智能分类垃圾桶,实现垃圾桶实时联网、智能分类等功能。该垃圾桶采用Kaldi工具对输入音频进行处理,实现语音识别,识别结果通过串口通信经上位机传输给单片机,单片机控制舵机转动,实现对垃圾的分类。同时,垃圾桶的内置传感器可以实时获取垃圾桶内温度等状态信息,并通过ESP266模块上传云端,能够让用户在APP终端实时了解垃圾桶内的情况。该设计成本低廉,分类准确率高,可用于智能家居等多种场景,有着广阔的应用前景。 展开更多
关键词 语音识别 智能垃圾桶 kaldi 垃圾分类 智能化 人工智能
下载PDF
基于i-vector说话人识别算法中训练时长研究 被引量:2
7
作者 马平 黄浩 +1 位作者 程露红 杨萌萌 《现代电子技术》 北大核心 2016年第14期1-3,8,共4页
为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kald... 为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i-vector说话人识别算法的最佳参数,为以后的基于i-vector说话人识别算法研究提供数据依据。 展开更多
关键词 说话人识别 i.vector kaldi 训练时长
下载PDF
基于多特征I-Vector的说话人识别算法 被引量:1
8
作者 赵宏 岳鲁鹏 +1 位作者 常兆斌 王伟杰 《兰州理工大学学报》 CAS 北大核心 2021年第5期93-98,共6页
针对单一声学特征无法精准高效地辨识说话人身份的问题,提出了一种基于多特征I-Vector的说话人识别算法.该算法首先采集不同的声学特征并将其构成一个高维特征向量,然后通过主成分分析法有效地剔除高维特征向量的关联,确保各种特征之间... 针对单一声学特征无法精准高效地辨识说话人身份的问题,提出了一种基于多特征I-Vector的说话人识别算法.该算法首先采集不同的声学特征并将其构成一个高维特征向量,然后通过主成分分析法有效地剔除高维特征向量的关联,确保各种特征之间正交化,最后采用概率线性判别分析进行建模和打分,并在一定程度上降低空间维度.在TIMIT语料库上利用Kaldi进行实验,算法运行结果表明,该算法较当前流行的基于I-Vector的单一梅尔频率倒谱系数和感知线性预测系数的特征系统在等错误率上分别提高了8.18%和1.71%,在模型训练时间上分别减少了60.4%和47.5%,具有更好的识别效果和效率. 展开更多
关键词 说话人识别算法 多特征I-Vector 主成分分析 概率线性判别分析 kaldi
下载PDF
几种开源英语识别工具包的对比分析 被引量:3
9
作者 刘琼 《计算技术与自动化》 2018年第4期123-127,共5页
对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMU Sphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持... 对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMU Sphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,具有最出色的识别正确率结果;CMU Sphinx系列语音工具包在提供较为全面的声学模型训练基础上,具有最好的识别效率;而HTK语音识别工具包所提供的训练技术支持最少,并且需要自行开发训练脚本,因此使用难度最大。 展开更多
关键词 开源语音识别工具 HTK Spinx kaldi 语言模型 声学模型
下载PDF
基于DNN-HMM和RNN的维吾尔语语音识别 被引量:4
10
作者 阿地力江·阿布都尼亚孜 米吉提·阿不里米提 艾斯卡尔·艾木都拉 《现代电子技术》 2021年第17期90-94,共5页
基于深层神经网络(DNN)的语音识别模型不仅在单个语言上表现出色,而且在多语言信息处理领域也表现出了优异的能力。随着语音数据量的增加,高斯混合模型(GMM)在有效提升大词汇量连续语音识别系统性能以及识别效果上被神经网络(NN)模型超... 基于深层神经网络(DNN)的语音识别模型不仅在单个语言上表现出色,而且在多语言信息处理领域也表现出了优异的能力。随着语音数据量的增加,高斯混合模型(GMM)在有效提升大词汇量连续语音识别系统性能以及识别效果上被神经网络(NN)模型超越。文中采用Kaldi开源语音识别平台,结合RNN语言模型和DNN模型的三种损失函数,即最大互信息量(MMI)、最小贝叶斯风险(sMBR)和最小因素错误率(MPE),在维吾尔语语料库(THUYG-20公开语料库)测试数据上分别取得了16.73%,16.55%和15.95%的词错误率。相比高斯混合模型的词错误率分别降低了2.88%,3.06%和3.66%。深层神经网络在资源匮乏的少数民族语言以及多语言信息处理上有更强的能力。 展开更多
关键词 维吾尔语语音识别 RNN语言模型 DNN-HMM 声学模型 判别式训练 损失函数 kaldi
下载PDF
基于CNN-HMM和RNN的维吾尔语语音识别 被引量:3
11
作者 穆凯代姆罕·伊敏江 艾斯卡尔·艾木都拉 米吉提·阿不里米提 《现代电子技术》 2021年第11期172-176,共5页
神经网络模型的发展给资源匮乏语言的语音及语言信息处理带来新的机遇,基于神经网络的少数民族语言的语音识别系统效率及准确率比传统方法有了很大提高。对于大词汇量语音识别系统,适当选择声学模型和语言模型很重要。对较小的维吾尔语... 神经网络模型的发展给资源匮乏语言的语音及语言信息处理带来新的机遇,基于神经网络的少数民族语言的语音识别系统效率及准确率比传统方法有了很大提高。对于大词汇量语音识别系统,适当选择声学模型和语言模型很重要。对较小的维吾尔语语料库(THUYG公开语料库)进行了深入研究,采用Kaldi开源语音识别平台将深度的CNN-HMM作为声学模型,通过理论分析和对比实验,分别在N-gram和RNN两种语言模型上进行对比实验。实验结果表明,基于神经网络RNN语言模型的系统有更好的识别效果,提升了维吾尔语语音识别准确率,并将词错误率降到15.06%。 展开更多
关键词 语音识别 维吾尔语 声学模型 语言模型 CNN-HMM N-GRAM语言模型 循环神经网络 kaldi
下载PDF
基于DNN-HMM的佤语语音声学建模 被引量:1
12
作者 贾嘉敏 程振 +1 位作者 潘文林 王欣 《计算机时代》 2022年第8期61-64,68,共5页
在佤语语音识别中,以孤立词作为识别单元时,未登录词对识别性能的影响很大。结合佤语语音特点,以音素作为识别单元,提出基于DNN-HMM声学模型的佤语语音识别方法。实验结果表明,与传统的GMM-HMM声学建模方法相比,基于DNN-HMM的声学模型... 在佤语语音识别中,以孤立词作为识别单元时,未登录词对识别性能的影响很大。结合佤语语音特点,以音素作为识别单元,提出基于DNN-HMM声学模型的佤语语音识别方法。实验结果表明,与传统的GMM-HMM声学建模方法相比,基于DNN-HMM的声学模型表现出更加优越的识别性能,词错误率(WER)最优达29.24%。 展开更多
关键词 佤语 语音识别 识别单元 kaldi DNN-HMM
下载PDF
语音关键词识别系统的模型训练及性能评价 被引量:4
13
作者 李娜 葛万成 《信息通信》 2020年第3期8-10,共3页
随着AI的发展,智能家居、语音助手等成为了语音识别的重要应用。文章在kaldi中以智能家居为背景,搭建了完整的语音关键词识别系统,分析了基于GMM-HMM模型下的单音素训练、三音素训练以及线性区分分析(LDA)、最大似然线性变换(MLLT)和说... 随着AI的发展,智能家居、语音助手等成为了语音识别的重要应用。文章在kaldi中以智能家居为背景,搭建了完整的语音关键词识别系统,分析了基于GMM-HMM模型下的单音素训练、三音素训练以及线性区分分析(LDA)、最大似然线性变换(MLLT)和说话人适应(SAT)等技术对关键词识别系统的影响,并用F4DE分析了不同训练算法下的关键词识别的性能的差异。仿真表明三音素下结合SAT+MLLT+LDA技术的关键词识别效果较好,TWV可以达到0.9549。最后给出了针对不同应用需求环境下的关键词最佳阈值选取算法,通过这个最佳门限值可以最小化误警率和虚警率,从而使得TWV的值最小,以满足不同语音关键词识别应用场景下的需求。 展开更多
关键词 语音识别 kaldi 声学模型 查询词权重代价 最佳阈值
下载PDF
语音识别实现方法 被引量:1
14
作者 李姝仪 李云洁 +3 位作者 蒋昊轩 郭宗昱 吴可欣 刘博 《科技风》 2021年第35期69-71,共3页
语音识别(Automatic Speech Recognition,ASR)是人工智能领域里一个重要的研究方向。对于如何实现语音识别,将语音序列转化为文本序列,简单来说就是确定问题,选择一个模型之后再训练它。随着开源社区的不断扩大,加速了语音识别领域的研... 语音识别(Automatic Speech Recognition,ASR)是人工智能领域里一个重要的研究方向。对于如何实现语音识别,将语音序列转化为文本序列,简单来说就是确定问题,选择一个模型之后再训练它。随着开源社区的不断扩大,加速了语音识别领域的研究进程,一些语音识别开源工具例如CMUSphinx、Julius、HTK、CMUSphinx、ISIP等也陆续兴起,被研究者们广泛运用。本文首先将介绍目前可以开发语音识别的工具CMUSphinx,Kaldi以及深度学习平台;然后简述CMUSphinx开源工具的实现流程;其次讲述运用Kaldi的语音识别实践过程;最后总结在语音识别实现中的一些问题以及未来的研究方向。 展开更多
关键词 语音识别 CMUSphinx kaldi 深度学习
下载PDF
DNN模型对汉语电话录音识别的研究与比较 被引量:3
15
作者 孔玲军 李艳 《福建电脑》 2022年第3期52-54,共3页
深度神经网络DNN(Deep Neural Network)是近年机器学习理论中被诸多研究者广泛关注的语音识别模型。DNN模型利用DNN的学习能力可提升对噪声和口音的鲁棒性,在很多大规模语音识别任务中都超过了GMM模型。本文基于DNN与HMM特点,提取40维的... 深度神经网络DNN(Deep Neural Network)是近年机器学习理论中被诸多研究者广泛关注的语音识别模型。DNN模型利用DNN的学习能力可提升对噪声和口音的鲁棒性,在很多大规模语音识别任务中都超过了GMM模型。本文基于DNN与HMM特点,提取40维的MFCC特征向量后,利用DNN的每个输出节点估计HMM每个状态的后验概率,进而得到了对电话录音场景下的模型参数。最后,对1000小时的汉语电话录音和公开汉语语料集thchs-30上进行三次模型训练设计实验,并对比GMM-HMM模型参数效果。实验结果表明,DNN-HMM模型在1000小时的电话录音测试集上误识率降低了5.84%-9.42%,且两种模型识别效果表现得都比较稳定。 展开更多
关键词 DNN GMM 电话录音 kaldi
下载PDF
TDNN模型对电话录音场景的识别研究 被引量:1
16
作者 孔玲军 《福建电脑》 2022年第4期50-52,共3页
近几年,延时神经网络TDNN模型在语音识别领域取得了非常好的效果。由于其具有权值共享和子采样等特点,使其减少了参数的训练规模。本文将3000小时汉语电话录音语料通过TDNN模型训练声学参数。在3000小时内的随机测试集上,TDNN的误识率比... 近几年,延时神经网络TDNN模型在语音识别领域取得了非常好的效果。由于其具有权值共享和子采样等特点,使其减少了参数的训练规模。本文将3000小时汉语电话录音语料通过TDNN模型训练声学参数。在3000小时内的随机测试集上,TDNN的误识率比DNN降低了0.62%至1.18%。但是,在3000小时外的测试集上,DNN与TDNN的效果各有优劣,但都表现得较为稳定。 展开更多
关键词 DNN TDNN 汉语电话录音 kaldi 子采样
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部