期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
汉语发音质量评估的实验研究 被引量:12
1
作者 葛凤培 潘复平 +1 位作者 董滨 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期261-266,共6页
研究了发音评估系统中通用的置信度测度——后验概率算法,针对它存在的不足,提出了两种改进方案。首先,为了降低计算复杂度,传统算法采用了求最大值算法代替求和算法,在被测发音偏离目标音素集的情况下,这会严重降低后验概率的计算精度... 研究了发音评估系统中通用的置信度测度——后验概率算法,针对它存在的不足,提出了两种改进方案。首先,为了降低计算复杂度,传统算法采用了求最大值算法代替求和算法,在被测发音偏离目标音素集的情况下,这会严重降低后验概率的计算精度,本文提出基于扩展的音素混淆网络的后验概率算法。其次,为使置信度能评估不同语音段长的发音质量优劣,传统算法采用了后验概率的段长规整策略,研究分析发现声学似然值与时间的关系更为紧密,所以本文提出了基于声学似然值的时间规整方案。试验结果表明:与传统算法相比,采用改进的置信度算法能使平均打分错误率相对降低35%左右,有效地改善了计算机辅助语言学习系统的性能。 展开更多
关键词 质量评估 发音 概率算法 实验 汉语 传统算法 语言学习系统 后验概率
下载PDF
基于发音特征的汉语普通话语音声学建模 被引量:14
2
作者 张晴晴 潘接林 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期254-260,共7页
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概... 将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 展开更多
关键词 汉语普通话 语音识别 输入特征 声学建模 发音 声学模型 频谱特征 后验概率
下载PDF
单通道语音增强算法对汉语语音可懂度影响的研究 被引量:17
3
作者 杨琳 张建平 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期248-253,共6页
考察了当前常用的几种单通道语音增强算法对汉语语音可懂度的影响。受不同类型噪音干扰的语音经过5种单通道语音增强算法的处理后,播放给具有正常听力水平的被试进行听辩,考察增强后语音的可懂度。实验结果表明,语音增强算法并不能改进... 考察了当前常用的几种单通道语音增强算法对汉语语音可懂度的影响。受不同类型噪音干扰的语音经过5种单通道语音增强算法的处理后,播放给具有正常听力水平的被试进行听辩,考察增强后语音的可懂度。实验结果表明,语音增强算法并不能改进语音的可懂度水平;通过分析具体的错误原因,发现听辩错误主要来自于音素错误,与声调关系不大;而且,同英文的辨识结果相比,一些增强算法对于中、英文可懂度影响差异显著。 展开更多
关键词 语音增强算法 汉语语音 可懂度 单通道 听力水平 噪音干扰 错误原因 英文
下载PDF
基于频率调制信息的人工耳蜗语音处理算法研究 被引量:4
4
作者 杨琳 张建平 +1 位作者 王迪 颜永红 《声学学报》 EI CSCD 北大核心 2009年第2期151-157,共7页
在传统人工耳蜗连续交叠采样(Continuous Interleaved Sampler,CIS)算法的基础上,提出一种基于精细结构(频率调制信息)的人工耳蜗语音处理算法,在不引入过高频率成分、保证工艺可实现性的前提下,使语音识别率大幅提高。听觉仿真实验的... 在传统人工耳蜗连续交叠采样(Continuous Interleaved Sampler,CIS)算法的基础上,提出一种基于精细结构(频率调制信息)的人工耳蜗语音处理算法,在不引入过高频率成分、保证工艺可实现性的前提下,使语音识别率大幅提高。听觉仿真实验的结果表明,与传统的基于时域包络的CIS算法相比,基于精细结构的CIS算法对于元音可懂度的改进可以达到28%;声调的识别率在各种噪声条件下提高20%以上;在一般噪声环境下,辅音和句子的可懂度也分别获得了22.9%和28.3%的改进。 展开更多
关键词 人工耳蜗 频率成分 语音处理 调制信息 算法 语音识别率 精细结构 噪声环境
下载PDF
混合双语语音识别的研究 被引量:1
5
作者 张晴晴 潘接林 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期270-275,共6页
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是... 随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。 展开更多
关键词 语音识别系统 混合语言 双语 识别性能 聚类方法 聚类算法 控制模型 控制系统
下载PDF
用于电话语音识别系统的置信度估计方法的研究
6
作者 董滨 赵庆卫 颜永红 《声学技术》 CSCD 北大核心 2006年第5期473-477,共5页
提出了一种用于电话语音识别系统的置信度快速估计算法,此算法是在语音识别器帧同步束搜索的过程中基于状态图的同步估计算法,使用同识别器解码相同的声学模型进行置信度估计,此算法取得了比传统的两遍解码估计置信度算法更好的性能,而... 提出了一种用于电话语音识别系统的置信度快速估计算法,此算法是在语音识别器帧同步束搜索的过程中基于状态图的同步估计算法,使用同识别器解码相同的声学模型进行置信度估计,此算法取得了比传统的两遍解码估计置信度算法更好的性能,而且计算复杂度较低,运行速度快,解决了计算置信度时使用模型的区分度与计算速度之间的矛盾。 展开更多
关键词 置信度 电话语音识别 状态图
下载PDF
基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究 被引量:16
7
作者 董滨 赵庆卫 颜永红 《声学学报》 EI CSCD 北大核心 2007年第2期122-128,共7页
提出了一种以元音的共振峰模式为特征基于支持向量机算法的分类评估方法,用以对汉语普通话中的韵母发音水平进行客观测试。此算法为每个韵母分别训练全分类模型、子分类模型和评估模型,在两级分类的基础上对发音水平进行测试打分。实验... 提出了一种以元音的共振峰模式为特征基于支持向量机算法的分类评估方法,用以对汉语普通话中的韵母发音水平进行客观测试。此算法为每个韵母分别训练全分类模型、子分类模型和评估模型,在两级分类的基础上对发音水平进行测试打分。实验结果表明,全分类模型可以达到90%以上的分类正确率,客观测试与专家主观评估的相似度达到82%,在性能上超过了传统的以倒谱系数为特征的隐含马尔科夫模型方法。 展开更多
关键词 客观测试方法 汉语普通话 共振峰 发音 韵母 支持向量机算法 分类模型
下载PDF
长时语音特征在说话人识别技术上的应用 被引量:8
8
作者 张建平 李明 +3 位作者 索宏彬 杨琳 付强 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期267-269,共3页
本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式... 本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。 展开更多
关键词 语音特征 识别技术 说话人 LEGENDRE 时频特征 应用 高斯混合模型 多项式拟合
下载PDF
一种任务域无关的语音关键词检测系统 被引量:2
9
作者 韩疆 刘晓星 +1 位作者 颜永红 张鹏远 《通信学报》 EI CSCD 北大核心 2006年第2期137-141,共5页
提出了面向语音关键词检测的多尺度声学模型建模框架,基于判决树的自动音素聚类生成了大尺度音素集,利用HMM声学模型训练技术生成了大尺度音素声学上下文相关的背景模型,提高了废料语音的建模精度,还给出了此框架下共享HMM状态的高效搜... 提出了面向语音关键词检测的多尺度声学模型建模框架,基于判决树的自动音素聚类生成了大尺度音素集,利用HMM声学模型训练技术生成了大尺度音素声学上下文相关的背景模型,提高了废料语音的建模精度,还给出了此框架下共享HMM状态的高效搜索空间构造方法,关键词识别准确率平均提高了绝对6.9%;提出了近邻声学上下文准则以及候选关键词在多尺度声学模型上的似然比计算方法并采用FLDA融合,显著提高了声学置信度计算的有效性,系统等错率绝对下降了3.0%。 展开更多
关键词 声学置信度 多尺度声学建模 搜索空间
下载PDF
语言声学的最新应用 被引量:4
10
作者 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期241-247,共7页
本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关... 本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。 展开更多
关键词 语言声学 应用 语音识别 计算机处理 声学分析 研究成果 人类
下载PDF
语言声学进展及其应用
11
作者 颜永红 《应用声学》 CSCD 北大核心 2009年第2期81-89,共9页
本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关... 本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。 展开更多
关键词 语言声学 言语产生 言语感知 语音识别 语音合成 发音评估 演唱评价
下载PDF
用于语音识别置信度的发音特征各维度分析和子集优化 被引量:2
12
作者 孙艳庆 张晴晴 +2 位作者 周瑜 赵庆卫 颜永红 《声学学报》 EI CSCD 北大核心 2011年第3期339-348,共10页
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析。分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余。为了去除冗余,提出了用子集选择的方法进行优化。... 提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析。分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余。为了去除冗余,提出了用子集选择的方法进行优化。对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降。把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善。 展开更多
关键词 置信度估计 语音识别 特征 发音 维度 优化 子集 隐马尔可夫模型
下载PDF
一种基于滑动窗口的语音端点检测算法 被引量:4
13
作者 余洪涌 赵庆卫 颜永红 《微计算机应用》 2006年第6期641-645,共5页
提出了一种基于滑动窗口的综合语音端点检测方法。从提高系统鲁棒性角度出发,利用各种综合的算法思想方法提高端点检测的准确性,鲁棒性和提高语音识别系统的总体识别率。利用频域能量、回声消除、DTMF滤除、利用信噪比确定多种阈值用于... 提出了一种基于滑动窗口的综合语音端点检测方法。从提高系统鲁棒性角度出发,利用各种综合的算法思想方法提高端点检测的准确性,鲁棒性和提高语音识别系统的总体识别率。利用频域能量、回声消除、DTMF滤除、利用信噪比确定多种阈值用于判定、利用语音波形特点进行粗调和精调等。试验表明该方法在语音端点检测的错误率和端点误差方面都显著减少了,系统鲁棒性得到明显提高。 展开更多
关键词 语音识别 语音端点检测 滑动窗口 回声消除
下载PDF
嵌入式语音识别中一种高效的图搜索算法
14
作者 黎塔 蔡尚 +2 位作者 赵庆卫 潘接林 颜永红 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期215-218,共4页
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可... 为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台. 展开更多
关键词 嵌入式语音识别 双层图搜索 单词拼读系统
下载PDF
语音导航系统中的一种模糊检索算法 被引量:1
15
作者 孙艳庆 赵庆卫 颜永红 《微计算机应用》 2009年第12期38-45,共8页
基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地... 基于车载的语音导航系统,尤其是针对大地名库中地名识别的任务需求。用LVCSR取代了较流行的基于语法的语音识别系统,以增强系统灵活性和处理能力。用一套模糊检索算法作为系统的后处理,提高地名识别的整句正确率。在普通的数万量级的地名数据库中可以达到90%的地名识别正确率;即使增加到百万数量级,识别率也能保持在70%以上。目前支持中英文系统。 展开更多
关键词 语音地名导航 LVCSR 模糊检索
下载PDF
窄带的自同步音频水印算法 被引量:11
16
作者 雷赟 刘建 +1 位作者 严波 颜永红 《计算机学报》 EI CSCD 北大核心 2008年第7期1283-1290,共8页
提出了一种适应于短波窄带信道的自同步音频水印算法.该算法具有如下优点:(1)在隐藏水印信息的同时,嵌入同步信号,使得水印具有时钟自同步和数据自同步的能力.(2)水印信号基于窄带信道的传输,适用于短波广播.(3)水印信号能够抗拒短波传... 提出了一种适应于短波窄带信道的自同步音频水印算法.该算法具有如下优点:(1)在隐藏水印信息的同时,嵌入同步信号,使得水印具有时钟自同步和数据自同步的能力.(2)水印信号基于窄带信道的传输,适用于短波广播.(3)水印信号能够抗拒短波传输中的各种干扰.实验表明:该算法能够实际地应用于短波节目的水印嵌入,对于短波传输中的各种干扰都有较好的鲁棒性. 展开更多
关键词 数字水印 音频水印 自同步 短波 窄带
下载PDF
关键词检测系统中基于音素网格的置信度计算 被引量:3
17
作者 张鹏远 韩疆 颜永红 《电子与信息学报》 EI CSCD 北大核心 2007年第9期2063-2066,共4页
该文提出了一种基于音素网格的置信度计算方法。与传统的基于整个声学模型的置信度不同的是,这种方法在解码器生成的音素网格上计算关键词的置信度,从而具有更好的拒识能力。另外,针对两种置信度取值范围的不同,该文采用权重因子的方法... 该文提出了一种基于音素网格的置信度计算方法。与传统的基于整个声学模型的置信度不同的是,这种方法在解码器生成的音素网格上计算关键词的置信度,从而具有更好的拒识能力。另外,针对两种置信度取值范围的不同,该文采用权重因子的方法综合利用两种置信度,取得了较好的效果。在自然对话的电话数据测试中,与传统的置信度计算方式相比,混和置信度的FOM(Figure Of Merit)值相对提高了17.0%。 展开更多
关键词 语音识别 关键词检测 置信度 后验概率 网格
下载PDF
基于音色单元分布的音乐结构分析 被引量:3
18
作者 李相莲 李明 +1 位作者 刘若伦 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期276-281,共6页
音乐的结构是音乐作品表达作者思想的一种重要形式,也是听众理解音乐作品内涵的有效途径。本文研究了基于音乐特征的音色单元建模方法,研究了在Fisher准则下,根据局部范围音色单元的分布,采用非监督聚类方法分析音乐的结构。实验结果证... 音乐的结构是音乐作品表达作者思想的一种重要形式,也是听众理解音乐作品内涵的有效途径。本文研究了基于音乐特征的音色单元建模方法,研究了在Fisher准则下,根据局部范围音色单元的分布,采用非监督聚类方法分析音乐的结构。实验结果证明了基于离散余弦变换的音色特征,用音色单元分布聚类算法进行音乐结构分析的有效性。 展开更多
关键词 音乐作品 结构分析 音色 单元 FISHER准则 离散余弦变换 建模方法 聚类方法
下载PDF
一个快速自动音乐记谱方法 被引量:4
19
作者 周若华 颜永红 《声学学报》 EI CSCD 北大核心 2010年第2期282-287,共6页
自动音乐记谱是音乐信号处理中的关键技术。本文描述了一个快速的自动复音音乐记谱方法。该方法采用回声器时频分析(RTFI)作为时频分析工具,主要由两个阶段组成,能量基的音符切分和多基频估计。本文所采用的多基频估计方法首先将RTFI能... 自动音乐记谱是音乐信号处理中的关键技术。本文描述了一个快速的自动复音音乐记谱方法。该方法采用回声器时频分析(RTFI)作为时频分析工具,主要由两个阶段组成,能量基的音符切分和多基频估计。本文所采用的多基频估计方法首先将RTFI能量谱按照谐音组合原理转换为基频能量谱,并基于基频能量谱采用简单的峰拾起方法对基频做初步估计;然后根据频谱不规律性和乐音谐音结构的基本假定,消除初步估计中的错误预测。 展开更多
关键词 自动音乐记谱 音乐信号处理 关键技术 回声器时频分析
下载PDF
汉语普通话易混淆音素的识别 被引量:4
20
作者 李晨冲 董滨 +2 位作者 潘复平 曾兴雯 颜永红 《计算机工程》 CAS CSCD 北大核心 2009年第23期201-203,共3页
针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的... 针对汉语普通话语音识别中易混淆音素的声学特征,把小波包分解理论应用在感觉加权线性预测(PLP)特征中,提出一种新的特征参数提取算法,可以更精确地描述易混淆音素的频谱特征。使用高斯混合模型对新的声学特征进行分类,从而达到区分的目的。实验结果证明,新的特征参数识别结果优于使用传统PLP特征参数的识别结果,识别错误率下降30%以上。 展开更多
关键词 小波包分解 感觉加权线性预测 语音识别
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部