期刊文献+
共找到285篇文章
< 1 2 15 >
每页显示 20 50 100
Discriminative tone model training and optimal integration for Mandarin speech recognition
1
作者 黄浩 朱杰 《Journal of Southeast University(English Edition)》 EI CAS 2007年第2期174-178,共5页
Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration t... Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM (hidden Markov model) based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models. 展开更多
关键词 discriminative training minimum phone error tone modeling Mandarin speech recognition
下载PDF
MANDARIN TONE RECOGNITION BASED ON WAVELET TRANSFORM AND HIDDEN MARKOV MODELING
2
作者 Cheng Jun Yi Kechu Li Bingbing (National Key Laboratory on ISN, Xid/an University, Xi’an 710071) 《Journal of Electronics(China)》 2000年第1期1-8,共8页
This paper presents a method of tone recognition for Mandarin speech by using combination of wavelet transform and hidden Markov modeling techniques. A pitch detector based on singularity detection and multi-resolutio... This paper presents a method of tone recognition for Mandarin speech by using combination of wavelet transform and hidden Markov modeling techniques. A pitch detector based on singularity detection and multi-resolution analysis of wavelet transform is employed for estimation of pitch periods, and hidden Markov modeling with partition Gaussian mixtures probability density function is used for the tone recognition. The algorithm can provide recognition accuracy of 97.22% and 94.47% for speaker-dependent and speaker-independent tone recognition, respectively. 展开更多
关键词 pitch detection tone recognition WAVELET TRANSFORM Hidden MARKOV model
下载PDF
Discriminative tonal feature extraction method in mandarin speech recognition 被引量:1
3
作者 HUANG Hao ZHU Jie 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2007年第4期126-130,共5页
To utilize the supra-segmental nature of Mandarin tones, this article proposes a feature extraction method for hidden markov model (HMM) based tone modeling. The method uses linear transforms to project Fo(fundamen... To utilize the supra-segmental nature of Mandarin tones, this article proposes a feature extraction method for hidden markov model (HMM) based tone modeling. The method uses linear transforms to project Fo(fundamental frequency) features of neighboring syllables as compensations, and adds them to the original Fo features of the current syUable. The transforms are discriminatively trained by using an objective function termed as "minimum tone error", which is a smooth approximation of tone recognition accuracy. Experiments show that the new tonal features achieve 3.82% tone recognition rate improvement, compared with the baseline, using maximum likelihood trained HMM on the normal F0 features. Further experiments show that discriminative HMM training on the new features is 8.78% better than the baseline. 展开更多
关键词 discriminative training tone recognition feature extraction Mandarin speech recognition
原文传递
HMM BASED RECOGNITION OF CHINESE TONES IN CONTINUOUS SPEECH
4
作者 Zhao Li (Department of Radio Engineering, Southeast University, Nanjing 210096) 《Journal of Electronics(China)》 2000年第1期9-14,共6页
This paper describes a method for recognizing Chinese tones in continuous speech. The first and second order differentials of the fundamental frequency logarithmically converted are used as feature parameters. A left-... This paper describes a method for recognizing Chinese tones in continuous speech. The first and second order differentials of the fundamental frequency logarithmically converted are used as feature parameters. A left-to-right hidden Markov modeling with five states, each of which is modeled by a single Gaussian distribution, expresses each of Chinese tones. Non-voiced portions are coded by random values normally distributed to uniformly deal with all the time frames in an utterance. Speaker dependent tone recognition was conducted for ten speakers. The average rate of 81.8% was obtained for these speakers. 展开更多
关键词 Chinese CONTINUOUS speech tone recognition FUNDAMENTAL frequency CONTINUOUS HMM
下载PDF
Robust Speech Recognition Using a Harmonic Model
5
作者 许超 曹志刚 《Tsinghua Science and Technology》 SCIE EI CAS 2004年第2期202-206,共5页
Automatic speech recognition under conditions of a noisy environment remains a challenging problem. Traditionally, methods focused on noise structure, such as spectral subtraction, have been em-ployed to address this ... Automatic speech recognition under conditions of a noisy environment remains a challenging problem. Traditionally, methods focused on noise structure, such as spectral subtraction, have been em-ployed to address this problem, and thus the performance of such methods depends on the accuracy in noise estimation. In this paper, an alternative method, using a harmonic-based spectral reconstruction algo-rithm, is proposed for the enhancement of robust automatic speech recognition. Neither noise estimation nor noise-model training are required in the proposed approach. A spectral subtraction integrated autocorrela-tion function is proposed to determine the pitch for the harmonic model. Recognition results show that the harmonic-based spectral reconstruction approach outperforms spectral subtraction in the middle- and low-signal noise ratio (SNR) ranges. The advantage of the proposed method is more manifest for non-stationary noise, as the algorithm does not require an assumption of stationary noise. 展开更多
关键词 robust speech recognition speech enhancement pitch extraction harmonic model
原文传递
Speaker Recognition System Based on the Baseband Correlation Score Reliability Fusion
6
作者 Qi He Ting Huang Hongbo Zhang 《Communications and Network》 2013年第3期596-600,共5页
Emotion mismatch between training and testing will cause system performance decline sharply which is emotional speaker recognition. It is an important idea to solve this problem according to the emotion normalization ... Emotion mismatch between training and testing will cause system performance decline sharply which is emotional speaker recognition. It is an important idea to solve this problem according to the emotion normalization of test speech. This method proceeds from analysis of the differences between every kind of emotional speech and neutral speech. Besides, it takes the baseband mismatch of emotional changes as the main line. At the same time, it gives the corresponding algorithm according to four technical points which are emotional expansion, emotional shield, emotional normalization and score compensation. Compared with the traditional GMM-UBM method, the recognition rate in MASC corpus and EPST corpus was increased by 3.80% and 8.81% respectively. 展开更多
关键词 EMOTIONAL SPEAKER recognition pitch NORMALIZATION Method Model MISMATCH detection EMOTIONAL NORMALIZATION
下载PDF
基于CTC与Transformer的普通话单音节发音错误检测
7
作者 杨兴耀 卢进堂 +2 位作者 肖瑞 张利飞 曾利文 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第1期87-95,共9页
提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传... 提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传统机器学习模型检测结果性能提升了16%,有效地提升了发音错误检出率,得出了较好的结果,检测率为0.589. 展开更多
关键词 语音识别 发音错误检测 语料库建设 深度学习 TRANSFORMER
下载PDF
声音识别技术在计算机信息检测中的应用研究
8
作者 吕虎 《电声技术》 2024年第10期101-103,共3页
重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel F... 重点探讨声音识别技术在计算机信息检测中的应用,通过阐述声音识别的基本原理,详细介绍声音识别在计算机信息检测中的应用流程,包括声音采集与预处理、特征提取、模式匹配与识别这3个主要步骤。实验结果表明,基于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征和支持向量机(Support Vector Machine,SVM)分类器的声音识别系统能够有效识别计算机使用过程中的正常操作声音和潜在威胁声音,为计算机安全监测提供了新的解决方案。 展开更多
关键词 声音识别 计算机信息检测 语音特征提取
下载PDF
平坦型和全聋型单侧难治性突发性耳聋患者纯音和言语识别率分析
9
作者 李东 王惠 +10 位作者 康欣乐 赵雪 王海旭 费兵 别同武 曹影 刘磊 怀德 束明阳 李秀婷 沈维展 《徐州医科大学学报》 CAS 2024年第3期187-190,共4页
目的 分析平坦型和全聋型单侧难治性突发性耳聋患者的纯音测听和言语识别率特点。方法 选取2016年1月至2022年1月于淮安市第二人民医院(徐州医科大学附属淮安医院)就诊的平坦型和全聋型难治性突发性耳聋患者132例,所有患者均为单耳发病... 目的 分析平坦型和全聋型单侧难治性突发性耳聋患者的纯音测听和言语识别率特点。方法 选取2016年1月至2022年1月于淮安市第二人民医院(徐州医科大学附属淮安医院)就诊的平坦型和全聋型难治性突发性耳聋患者132例,所有患者均为单耳发病,分别检测并记录患者的纯音测听和言语识别率,按照发病年龄和听力损失程度进行分组,并进行统计分析。结果 与对照组105例健康体检者听力相比较,观察组132例患者中,轻度12例(9.09%)、中度30例(22.73%)、重度50例(37.88%)、极重度40例(30.30%),不同程度听力损失患者言语识别率比较差异有统计学意义(P<0.05);少年7例(5.30%)、青年32例(24.24%)、中年65例(49.24%)、老年28例(21.21%),不同年龄之间的听力损失比较差异有统计学意义(P<0.05),不同年龄间言语识别率差异有统计学意义(P<0.05);不同性别之间的听力损失比较差异无统计学意义(P>0.05),不同性别之间言语识别率差异无统计学意义(P>0.05)。结论 听力损失程度及年龄可以显著影响言语识别率,两者呈负相关,年龄越大,听力损失越重,言语识别率越低,老年人最为明显;而平坦型和全聋型单侧难治性突聋患者的听力损失与性别无关,多为中度以上听力损失,重度及极重度居多,中年人发病率最高。 展开更多
关键词 单侧特发性耳聋 平坦型 全聋型 听力损失 言语识别率 纯音测听
下载PDF
老化对语音线索感知能力的影响
10
作者 史彬 范煜辉 +2 位作者 陈楠 刘济生 陶朵朵 《中国眼耳鼻喉科杂志》 2024年第1期26-31,共6页
目的探究老化是否是言语感知困难的独立因素,并明确老化对语音线索感知能力的影响模式。方法本研究招募了听力正常的青年组(n=10,平均年龄为24岁)和老年组(n=15,平均年龄为67岁)受试者,利用闭集中文短句(CMS)评估2组受试者在4种不同语... 目的探究老化是否是言语感知困难的独立因素,并明确老化对语音线索感知能力的影响模式。方法本研究招募了听力正常的青年组(n=10,平均年龄为24岁)和老年组(n=15,平均年龄为67岁)受试者,利用闭集中文短句(CMS)评估2组受试者在4种不同语音感知线索(“基线”条件、“基频”条件、“空间”条件、“基频+空间”条件)下的言语识别阈(SRT),通过对比4种条件下的SRT评估老化对基频线索和(或)空间线索的利用能力的影响。结果①RM-ANOVA分析显示,在“基线”、“基频”和“空间”条件下,老年组SRT均高于(差于)青年组(P值均<0.05),在“基频+空间”条件下,2组差异无统计学意义(P>0.05)。以听阈为协变量行协方差分析显示,老年组SRT在“空间”条件与青年组无显著差异(P>0.05)。②在“基频”、“空间”及“基频+空间”条件下,老年组掩蔽释放(MR)较青年组下降,但差异均无统计学意义(P值均>0.05)。结论老年人在复杂语境下的言语感知能力比青年人显著变差;但当语音同时具备基频和空间线索时,老年人仍可综合利用2种线索,从而达到与青年人相似的感知表现。排除听敏度的影响,老化显著削弱语音基频线索的感知能力,而对空间线索利用能力影响不显著。 展开更多
关键词 竞争言语 言语识别阈 纯音听阈 基频 空间言语 老化
下载PDF
基于FreeSWITCH的智能语音外呼系统的设计与优化
11
作者 郝锐朋 周军 +1 位作者 白兴 肖素杰 《微电子学与计算机》 2024年第7期110-118,共9页
FreeSWITCH作为目前主流的电话软交换平台,是呼叫中心的重要组成部分,实现了网络客户端、模拟电话、手机之间的互相拨号通话。基于FreeSWITCH软交换平台,设计了外呼会话流程控制方案,主要实现语音识别、语音合成、自然语言处理之间的流... FreeSWITCH作为目前主流的电话软交换平台,是呼叫中心的重要组成部分,实现了网络客户端、模拟电话、手机之间的互相拨号通话。基于FreeSWITCH软交换平台,设计了外呼会话流程控制方案,主要实现语音识别、语音合成、自然语言处理之间的流程控制,支持语音智能打断播报、按键检测、通话状态检测、转人工等功能,涵盖了全面的人机对话交互流程事件应答;改进了Unimrcp自有的语音端点检测方法,提高了有效音检测的准确性;通过Unimrcp架构集成了语音识别和语音合成能力交互逻辑,提升用户体验;同时,针对FreeSWITCH智能外呼语音打断功能进行优化,有效的解决了网络异常情况下,外呼交互过程中出现中断的问题。 展开更多
关键词 FreeSWITCH MRCP协议 智能外呼 语音端点检测 语音识别
下载PDF
Glide landmark detection using band-limited energy ratio contours
12
作者 Soojin Park Jeungyoon Choi Honggoo Kang 《Journal of Measurement Science and Instrumentation》 CAS 2012年第4期352-356,共5页
A detection system for American English glides/w y r 1] in a knowledge-based automatic speech recognition system is presented. The method uses detection of dips in band-limited energy to total energy ratios, instead o... A detection system for American English glides/w y r 1] in a knowledge-based automatic speech recognition system is presented. The method uses detection of dips in band-limited energy to total energy ratios, instead of detecting dips along the unmodified band-limited energy contours. By using band-limited energy ratio, the dip detection is applicable in not only intervocalic regions but also in non-intervocalic regions. A Gaussian mixture model(GMM) based classifier is then used to separate the detected vowels and nasals. This approach is tested using the TIMIT corpus and results in an overall detection rate of 69.5 %, which is a 4.7 % absolute increase in detection rate compared with an hidden Markov model (HMM) based phone recognizer. 展开更多
关键词 landmarks glide detection knowledge-based speech recognition
下载PDF
基于深度神经网络的藏语语音关键词检索方法
13
作者 张恒 拉巴顿珠 +1 位作者 官政先 肖鑫 《西藏科技》 2024年第6期73-80,共8页
语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换... 语音关键词识别作为人机语音交互的一项基础性研究课题,其目的是从连续的语音信号中提取特定的关键词,并实现对目标设备的唤醒以及其他相关功能。文章提出了一种基于DNN-HMM声学模型的藏语卫藏方言关键词检测方法。首先,通过切割、转换等方式对语音数据进行预处理;其次,使用MFCC从语音信号中提取出有效的特征作为模型的输入;再次,分别采用GMM-HMM和DNN-HMM模型对藏语声学特征进行建模。同时,为了提高模型的表现力和泛化能力,文章在模型中引入预训练和微调技术,对模型的结构进行了优化。实验结果表明,与传统基于GMM-HMM声学模型的识别结果相比,采用基于DNN-HMM声学模型的关键词检测方法能够更有效地检测出藏语语音关键词。 展开更多
关键词 声学模型 藏语 深度学习 关键词检测 语音识别
下载PDF
民族语言的语音识别研究
14
作者 袁子林 张瑞 +2 位作者 张彩霞 魏欢 巩海平 《计算机应用文摘》 2024年第1期81-83,共3页
民族语言语音识别的研究内容主要涵盖连续语音识别、孤立词识别以及语音端点检测等方面。文章旨在挖掘和总结有关藏族、苗族和蒙古族语音识别的文献,分析这三种民族语言语音识别研究所面临的主要难点和研究趋势。
关键词 语音识别 民族语言 端点检测
下载PDF
盲人阅读系统设计与实现
15
作者 余璨辰 钱泽文 +1 位作者 张宇晴 吴佳瑞 《现代信息科技》 2024年第19期34-38,43,共6页
盲人读物稀缺,数字化阅读技术展现出巨大潜力以解决这一难题。基于Tesseract-OCR技术,设计了一款盲文阅读器,其操作简便,部署于树莓派平台。系统先通过摄像头捕捉书籍图像,再执行边缘检测、图像预处理、文字识别以及语音合成等步骤,最... 盲人读物稀缺,数字化阅读技术展现出巨大潜力以解决这一难题。基于Tesseract-OCR技术,设计了一款盲文阅读器,其操作简便,部署于树莓派平台。系统先通过摄像头捕捉书籍图像,再执行边缘检测、图像预处理、文字识别以及语音合成等步骤,最终通过蓝牙音箱输出语音,使盲人用户得以通过听觉进行阅读。针对图像像素对识别准确率的影响问题,在图像预处理阶段引入了一种文本图像超分辨率技术。实验结果证明,应用该超分辨率技术显著提升了文本图像的质量并有效提高了Tesseract的文字识别准确性。 展开更多
关键词 Tesseract文字识别 文本图像超分辨率 语音合成 边缘检测
下载PDF
基于MFCC提取和DTW优化的连续音频识别算法设计
16
作者 王鸿瑞 张玉辰 +2 位作者 陈鹭 高博韬 高昕悦 《中国现代教育装备》 2024年第17期41-45,52,共6页
介绍了一种新型的利用梅尔频率倒谱系数(MFCC)提取和动态时间规整技术(DTW)优化的连续音频识别算法。首先对数学原理与算法步骤进行设计与规划,使用大规模音频数据库进行预处理,经过时域和频域分析提取相应的特征;然后利用双门限法把连... 介绍了一种新型的利用梅尔频率倒谱系数(MFCC)提取和动态时间规整技术(DTW)优化的连续音频识别算法。首先对数学原理与算法步骤进行设计与规划,使用大规模音频数据库进行预处理,经过时域和频域分析提取相应的特征;然后利用双门限法把连续音频切分为不同的音频块,并对切分部分进行针对性识别,将其与时频域数据库的模板进行匹配比对,实现了较好的连续音频识别效果,在时域和频域识别上的准确性均能达到89%。该研究成果可应用于钢琴教学系统的开发,尤其是在辅助学习者正确弹出曲谱方面具有广阔的应用前景。 展开更多
关键词 语音识别 端点检测 梅尔频率倒谱系数 动态时间规整算法 时频域分析
下载PDF
基于Speech SDK的数字语音识别系统研究 被引量:2
17
作者 刘春平 《工业控制计算机》 2012年第7期69-70,共2页
为了较好地实现数字语音识别,运用隐式马尔科夫理论研究数字语音识别系统,通过软件编程研究其在语音识别系统中的应用。在VC++6.0环境下,该系统实现了汉语数字语音的识别。实验结果表明,其达到了较高的识别率。
关键词 端点检测 隐马尔科夫模型 语音识别系统 MEL倒谱系数
下载PDF
Speaker-independent recognition of Chinese tones
18
作者 GUAN Cuntai and CHEN Yongbin(Dep. of Radio Eng., Southeast University, Nanjing 210018) 《Chinese Journal of Acoustics》 1993年第2期142-148,共7页
This paper presents a reliable speaker-independent method of recognizing Chinese tones. An unbiased center-clipping autocorrelation algorithm of pitch period extraction is proposed. A two-dimensional decision vector i... This paper presents a reliable speaker-independent method of recognizing Chinese tones. An unbiased center-clipping autocorrelation algorithm of pitch period extraction is proposed. A two-dimensional decision vector is used for recognizing Chinese tones by passing the pitch period sequence through the procedures of data selection, error correction, data smoothing and curve fitting. The average correct rate of tone recognition for isolated Chinese syllables is over 98%. 展开更多
关键词 tone recognition pitch detection.
原文传递
基于时域波形的半监督端到端虚假语音检测方法 被引量:1
19
作者 方昕 黄泽鑫 +6 位作者 张聿晗 高天 潘嘉 付中华 高建清 刘俊华 邹亮 《计算机应用》 CSCD 北大核心 2023年第1期227-231,共5页
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D... 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。 展开更多
关键词 虚假语音检测 语音合成 音色转换 说话人识别 时域 半监督学习
下载PDF
基于机器视觉的臂架式起重机极限承载性能检测方法
20
作者 曹旭阳 李强 +1 位作者 张则宝 唐旭扬 《仪表技术与传感器》 CSCD 北大核心 2023年第4期113-117,共5页
针对传统的臂架式起重机承载性能检测试验的不足,提出了一种新的检测方法,通过吊载一辆随动车体来代替吊载的砝码。在新方法中,设计了一种基于圆形特征的单目视觉定位方法,识别特定的几何特征标记来获取随动车体像素坐标系下的坐标,为... 针对传统的臂架式起重机承载性能检测试验的不足,提出了一种新的检测方法,通过吊载一辆随动车体来代替吊载的砝码。在新方法中,设计了一种基于圆形特征的单目视觉定位方法,识别特定的几何特征标记来获取随动车体像素坐标系下的坐标,为随动车体在地面上的运动提供方位,对承载性能检测环境进行了分析研究,设计了一种自适应阈值和全局色调映射的图像分割方法,适应户外光照变化大和亮度分布不均的情况,以及应用canny边缘检测识别特征的轮廓。实验验证该图像分割方法对多变的光照条件具有较强的鲁棒性,随动车体模型能够较好地跟随定位装置移动,实现精确定位,新的检测方法可行性高。 展开更多
关键词 臂架式起重机 承载性能检测 机器视觉 全局色调映射 形状识别
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部