期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
普通话发音错误自动检测技术 被引量:3
1
作者 张峰 黄超 戴礼荣 《中文信息学报》 CSCD 北大核心 2010年第2期110-115,共6页
统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检... 统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8%升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。 展开更多
关键词 计算机应用 中文信息处理 发音错误自动检错 说话人自适应训练 选择性最大似然线性回归 话者归 一化
下载PDF
倒谱形状规整在噪声鲁棒性语音识别中的应用 被引量:2
2
作者 杜俊 戴礼荣 王仁华 《中文信息学报》 CSCD 北大核心 2010年第2期104-109,共6页
该文提出了一种新的用于鲁棒性语音识别的特征规整方法。我们观察到在噪声环境下语音特征分布的形状相比于干净环境变化很大,因此提出了一种称为倒谱形状规整的新方法,它是利用引入一个指数因子来达到对倒谱分布形状进行规整的目的。这... 该文提出了一种新的用于鲁棒性语音识别的特征规整方法。我们观察到在噪声环境下语音特征分布的形状相比于干净环境变化很大,因此提出了一种称为倒谱形状规整的新方法,它是利用引入一个指数因子来达到对倒谱分布形状进行规整的目的。这种方法被证明在噪声环境下非常有效,特别是在低信噪比情况下。实验结果表明此新方法在au-rora2和aurora3两个标准数据库上比经典的均值方差规整算法在词错误率方面分别有38%和25%的相对降低,并且倒谱形状规整也好于其它传统方法,比如直方图均衡和高阶倒谱矩规整方法。 展开更多
关键词 计算机应用 中文信息处理 鲁棒性语音识别 形状规整
下载PDF
一种新的基于频域独立成分分析的语音信号盲分离方法 被引量:2
3
作者 吴奇昌 马峰 戴礼荣 《电路与系统学报》 北大核心 2013年第2期405-412,共8页
在频域利用传统的ICA进行分离时,如果分离矩阵没有经过良好的初始化,算法的收敛与分离性能都不够理想。本文提出了一种新的基于频域独立成分分析(ICA)的语音信号盲分离方法。首先通过分析混合信号的时频域特性对各个频带的分离矩阵进行... 在频域利用传统的ICA进行分离时,如果分离矩阵没有经过良好的初始化,算法的收敛与分离性能都不够理想。本文提出了一种新的基于频域独立成分分析(ICA)的语音信号盲分离方法。首先通过分析混合信号的时频域特性对各个频带的分离矩阵进行初始化,使算法的收敛速度更快,并很好的解决了输出信号的次序不确定性问题;进一步根据以初始化的分离矩阵分离出的源信号间的幅度相关性,仅挑选出一部分频带进行ICA的迭代,最终达到在追求良好分离性能的同时极大提升运算效率的目的。仿真的无回声环境和几种实际的回声环境下所得到的实验结果表明,该方法在分离性能和算法效率上均优于传统的频域ICA方法。 展开更多
关键词 盲信号分离 独立成分分析 时频分析 卷积混合 频带挑选
下载PDF
话者识别中结合模型和能量的语音激活检测算法 被引量:1
4
作者 章钊 郭武 《小型微型计算机系统》 CSCD 北大核心 2010年第9期1914-1917,共4页
语音激活检测是检测语音起始终止端点的一种算法,合适地选择语音来进行说话人模型的注册和测试对话者识别系统的性能有很大影响.本文将基于能量的语音激活检测算法与基于模型的算法相结合来检测语音,在N IST2006核心测试数据集上,采用... 语音激活检测是检测语音起始终止端点的一种算法,合适地选择语音来进行说话人模型的注册和测试对话者识别系统的性能有很大影响.本文将基于能量的语音激活检测算法与基于模型的算法相结合来检测语音,在N IST2006核心测试数据集上,采用本文算法的系统相对于传统基于能量的方法性能最多有19%的提升. 展开更多
关键词 语音激活检测 说话人识别 支持向量机 扰属性投影
下载PDF
基于语言学知识的发音质量评价算法改进 被引量:14
5
作者 刘庆升 魏思 +2 位作者 胡郁 郭武 王仁华 《中文信息学报》 CSCD 北大核心 2007年第4期92-96,共5页
随着普通话推广工作的深入,采用计算机进行普通话的辅助测试和学习的需求日益迫切。本文针对普通话发音特点,提出了一种改进的基于音素的自动发音质量评价算法。新算法在隐马尔科夫模型的对数后验概率算法基础上,引入普通话发音的语言... 随着普通话推广工作的深入,采用计算机进行普通话的辅助测试和学习的需求日益迫切。本文针对普通话发音特点,提出了一种改进的基于音素的自动发音质量评价算法。新算法在隐马尔科夫模型的对数后验概率算法基础上,引入普通话发音的语言学知识。与改进前相比,新算法不仅降低了运算量,而且在普通话水平测试的303人现场录音库上,使得机器打分与国家级评测员打分之间的相关度从0.704提升到0.795。 展开更多
关键词 计算机应用 中文信息处理 语音识别 发音质量评价 对数后验概率 语言学知识
下载PDF
基于双层决策的新闻网页正文精确抽取 被引量:16
6
作者 胡国平 张巍 王仁华 《中文信息学报》 CSCD 北大核心 2006年第6期1-9,103,共10页
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网... 本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 特征向量 决策树 正文抽取
下载PDF
采用主成分分析的特征映射 被引量:8
7
作者 郭武 戴礼荣 王仁华 《自动化学报》 EI CSCD 北大核心 2008年第8期876-879,共4页
在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数... 在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数据,但是在特征映射时不需要对信道进行判决.在NIST 2006年SRE lconv4w-lconv4w数据库上,采用本文推荐方法的系统相对基线系统在等错误率上降低了19%. 展开更多
关键词 说话人确认 混合高斯模型 超矢量 梅尔刻度式倒谱参数
下载PDF
因子分析在基于GMM的自动语种识别中的应用 被引量:4
8
作者 付强 宋彦 戴礼荣 《中文信息学报》 CSCD 北大核心 2009年第4期77-81,共5页
在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝... 在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝试消除该差异的影响。在最新的NIST LRE2007的测试任务中,相对于GMM-UBM基线系统,该文方法有效地提高了系统识别性能。在30s时长的测试中,等错误率(EER)相对降低36.5%。 展开更多
关键词 计算机应用 中文信息处理 自动语种识别 高斯混合模型 因子分析
下载PDF
基于多视觉码本的图像表示 被引量:1
9
作者 宋彦 蒋兵 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2013年第10期909-915,共7页
基于词袋模型的图像表示方法的有效性主要受限于局部特征的量化误差.文中提出一种基于多视觉码本的图像表示方法,通过综合考虑码本构建和编码方法这两个方面的因素加以改进.具体包括:1)多视觉码本构建,以迭代方式构建多个紧凑且具有互... 基于词袋模型的图像表示方法的有效性主要受限于局部特征的量化误差.文中提出一种基于多视觉码本的图像表示方法,通过综合考虑码本构建和编码方法这两个方面的因素加以改进.具体包括:1)多视觉码本构建,以迭代方式构建多个紧凑且具有互补性的视觉码本;2)图像表示,首先针对多码本的情况,依次从各码本中选择相应的视觉单词并采用线性回归估计编码系数,然后结合图像的空间金字塔结构形成最终的图像表示.在一些标准测试集合的图像分类结果验证文中方法的有效性. 展开更多
关键词 图像分类 视觉码本 聚类分析 图像表示
下载PDF
采用支持向量机的说话者确认中的样本平衡 被引量:1
10
作者 龙艳花 郭武 戴礼荣 《中文信息学报》 CSCD 北大核心 2008年第3期99-104,共6页
支持向量机在与文本无关的话者确认系统中已经取得了广泛的应用,但是在实际应用系统中获得的目标说话人样本与冒认者样本数量比一般在几千分之一,因此存在很严重的样本非平衡问题,冒认者样本选择的好坏直接影响到整个系统的性能。本文... 支持向量机在与文本无关的话者确认系统中已经取得了广泛的应用,但是在实际应用系统中获得的目标说话人样本与冒认者样本数量比一般在几千分之一,因此存在很严重的样本非平衡问题,冒认者样本选择的好坏直接影响到整个系统的性能。本文提出了两种挑选冒认者样本的方法。实验证明这些方法能有效地解决上述问题,性能比随机挑选冒认者样本的方法有了提升,经过在2004年NIST说话人识别数据库上进行测试,等错误率由9.3%降低到6.8%,错误率相对下降了26.9%。 展开更多
关键词 计算机应用 中文信息处理 支持向量机 冒认者
下载PDF
一种基于层次化支持向量机的语种识别方法 被引量:2
11
作者 雷文辉 宋彦 戴礼荣 《小型微型计算机系统》 CSCD 北大核心 2009年第4期721-725,共5页
基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合,利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时... 基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合,利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时借鉴互训练的思想,采用互补的特征参数训练SVM模型,并对不同时长、特征的系统识别结果加以融合,有效提高了系统性能.在NIST2003语种测试中30秒时长的测试结果表明,本文所提方法有效的提升了语种识别的性能,等错误率(EER)从6.3降到了4.5%. 展开更多
关键词 语种识别 支持向量机 广义线性区分性序列核 互训练
下载PDF
采用模型和得分非监督自适应的说话人识别 被引量:1
12
作者 王尔玉 郭武 +2 位作者 李轶杰 戴礼荣 王仁华 《自动化学报》 EI CSCD 北大核心 2009年第3期267-271,共5页
在说话人识别的研究中,使用以前的测试语句信息对模型参数或者测试得分进行动态更新,使模型可以更精确地反映测试语句和说话人模型之间的关系,这种更新策略称为非监督模式,这方面的研究对实际的说话人识别系统具有非常重要的意义.本文... 在说话人识别的研究中,使用以前的测试语句信息对模型参数或者测试得分进行动态更新,使模型可以更精确地反映测试语句和说话人模型之间的关系,这种更新策略称为非监督模式,这方面的研究对实际的说话人识别系统具有非常重要的意义.本文除了采用非监督的说话人模型自适应更新方法之外,还提出了非监督的得分域自适应算法:首先采用双高斯函数对得分建立一个先验的得分模型,利用最大后验概率准则对得分规整的模型进行调整.在测试过程中,采用得分域和模型域的非监督算法可以互相补充,提高识别率,在NISTSRE2006年1训练语段-1测试语段数据库上,使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果. 展开更多
关键词 说话人确认 混合高斯模型 非监督模式 得分规整
下载PDF
基于树的相关系数补偿满方差建模技术 被引量:1
13
作者 陈思宝 姚志强 +1 位作者 胡郁 王仁华 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期668-672,共5页
为了实现语音识别中基于隐Markov模型(hidden Markov model,HMM)的满方差建模,该文提出了基于树的相关系数的补偿方法。首先自顶向下构建状态的回归树,用简化的仅考虑协方差的对称Kullback-Leibler散度来度量Gauss之间的差异。每个Gaus... 为了实现语音识别中基于隐Markov模型(hidden Markov model,HMM)的满方差建模,该文提出了基于树的相关系数的补偿方法。首先自顶向下构建状态的回归树,用简化的仅考虑协方差的对称Kullback-Leibler散度来度量Gauss之间的差异。每个Gauss核接到相应状态下作为叶子节点。叶子节点的相关系数矩阵用其父节点及祖先节点的相关系数矩阵的线性插值得到。线性插值权在最大似然意义下进行优化。实验结果显示取得的识别性能相对异方差线性判别分析、半绑定协方差、基于树的协方差非对角补偿方法的字误识率分别相对下降9.71%、9.17%和4.12%。 展开更多
关键词 语音识别 满方差建模 相关系数
原文传递
一种基于区分性准则的模型结构优化方法 被引量:1
14
作者 鄢志杰 胡郁 王仁华 《中文信息学报》 CSCD 北大核心 2008年第2期99-105,共7页
本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前... 本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前提下降低所需要的模型参数。相对于传统的基于似然度及复杂度惩罚的模型结构优化准则来讲,基于区分性准则的优化方法能够更直接地提高模型的区分度和鉴别力,从而得到更好的识别效果。在一个面向嵌入式系统的中文连续数字串识别任务上的实验结果证明,基于最大互信息量准则的模型结构优化能够得到比传统的、基于模型似然度及复杂度的方法更好的识别效果。 展开更多
关键词 计算机应用 中文信息处理 自动语音识别 声学模型 模型结构优化
下载PDF
一种结构受限的异方差线性判别分析
15
作者 陈思宝 胡郁 王仁华 《中文信息学报》 CSCD 北大核心 2008年第4期94-99,共6页
异方差线性判别分析(HLDA)因在语音识别中起到了巨大的特征去相关作用而被广泛利用。然而在训练数据不足或特征维数较高时,HLDA易出现不稳定性和小样本问题。根据特征的矩阵表示形式,提出了一种结构受限的HLDA。首先用二维线性判别分析(... 异方差线性判别分析(HLDA)因在语音识别中起到了巨大的特征去相关作用而被广泛利用。然而在训练数据不足或特征维数较高时,HLDA易出现不稳定性和小样本问题。根据特征的矩阵表示形式,提出了一种结构受限的HLDA。首先用二维线性判别分析(2DLDA)压缩矩阵形式的特征,然后作一维的HLDA。通过分析我们指出,二维的特征变换实际上是一种结构受限的一维特征变换。在RM库上的实验,受限HLDA对常规HLDA的词识别错误相对下降12.39%;在TIMIT库上的实验,受限HLDA对常规HLDA的音素识别错误相对下降4.43%。 展开更多
关键词 计算机应用 中文信息处理 语音识别 特征变换 HLDA 结构受限
下载PDF
基于统计建模的可训练单元挑选语音合成方法 被引量:4
16
作者 王仁华 戴礼荣 +1 位作者 凌震华 胡郁 《科学通报》 EI CAS CSCD 北大核心 2009年第8期1133-1138,共6页
提出了一种基于统计建模的可训练单元挑选语音合成方法.在模型训练阶段,提取训练语料库中的多种声学参数并训练各自对应的统计模型;在合成阶段,基于统计模型的最大似然准则实现语料库中最优备选单元序列的挑选;最终通过波形拼接输出合... 提出了一种基于统计建模的可训练单元挑选语音合成方法.在模型训练阶段,提取训练语料库中的多种声学参数并训练各自对应的统计模型;在合成阶段,基于统计模型的最大似然准则实现语料库中最优备选单元序列的挑选;最终通过波形拼接输出合成语音.实验结果表明,该方法可以有效改善传统单元挑选与波形拼接语音合成方法在系统构建自动化程度低、对专家知识依赖性强、以及合成效果稳定性不足等方面的问题.此外,针对单元挑选语音合成的特点,提出了一种新的最小单元挑选错误准则,采用区分性模型训练方法进行模型参数的更新,实现了系统构建的全自动化,并进一步提高了合成语音的自然度. 展开更多
关键词 语音合成 单元挑选与波形拼接 统计模型 最大似然准则
原文传递
基于统计声学模型的单元挑选语音合成算法 被引量:8
17
作者 凌震华 王仁华 《模式识别与人工智能》 EI CSCD 北大核心 2008年第3期280-284,共5页
提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶... 提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性. 展开更多
关键词 语音合成 单元挑选 统计声学模型 隐马尔柯夫模型(HMM) 最大似然准则
原文传递
用于SVM说话者确认系统的序列核 被引量:1
18
作者 龙艳花 郭武 戴礼荣 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期688-692,共5页
为了更好的将区分式分类方法应用于说话者确认系统中,该文提出了一种应用于支持向量机(supportvector machine,SVM)说话者确认系统的新型序列核,通过Gauss混合模型训练出每个说话人模型超向量作为支持向量机的输入样本,然后根据Gauss混... 为了更好的将区分式分类方法应用于说话者确认系统中,该文提出了一种应用于支持向量机(supportvector machine,SVM)说话者确认系统的新型序列核,通过Gauss混合模型训练出每个说话人模型超向量作为支持向量机的输入样本,然后根据Gauss混合模型之间的Kullback-Leibler距离度量构造的SVM序列核函数对超向量进行训练和判决。在美国国家标准与技术研究所(NIST)2004和2006年说话人识别数据库上的实验证明了该核函数能在一定程度上提升整个说话者确认系统的识别精度和鲁棒性。结果表明,本文提出的应用于说话者确认系统中的核函数不仅具有明确的物理意义,而且改善了识别系统的性能。 展开更多
关键词 说话者确认 Kullback-Leibler距离(KLD)序列核 支持向量机(SVM) 超向量
原文传递
改进的跨语种语音合成模型自适应方法 被引量:2
19
作者 刘航 凌震华 +1 位作者 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2011年第4期457-463,共7页
统计参数语音合成中的跨语种模型自适应主要应用于目标说话人语种与源模型语种不同时,使用目标发音人少量语音数据快速构建具有其音色特征的源模型语种合成系统.本文对传统的基于音素映射和三音素模型的跨语种自适应方法进行改进,一方... 统计参数语音合成中的跨语种模型自适应主要应用于目标说话人语种与源模型语种不同时,使用目标发音人少量语音数据快速构建具有其音色特征的源模型语种合成系统.本文对传统的基于音素映射和三音素模型的跨语种自适应方法进行改进,一方面通过结合数据挑选的音素映射方法以提高音素映射的可靠性,另一方面引入跨语种的韵律信息映射以弥补原有方法中三音素模型在韵律表征上的不足.在中英文跨语种模型自适应系统上的实验结果表明,改进后系统合成语音的自然度与相似度相对传统方法都有了明显提升. 展开更多
关键词 隐马尔科夫模型(HMM) 语音合成 跨语种模型自适应 音素映射
原文传递
声纹识别中合成语音的鲁棒性 被引量:3
20
作者 陈联武 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2011年第6期743-747,共5页
随着以隐马尔科夫模型为基础的语音合成技术的发展,冒认者很容易利用该技术生成具有目标说话人特性的合成语音,这对现有的声纹识别系统构成巨大威胁.针对此问题,文中从统计学的角度分析自然语音与合成语音在实倒谱上的区别,并提出对合... 随着以隐马尔科夫模型为基础的语音合成技术的发展,冒认者很容易利用该技术生成具有目标说话人特性的合成语音,这对现有的声纹识别系统构成巨大威胁.针对此问题,文中从统计学的角度分析自然语音与合成语音在实倒谱上的区别,并提出对合成语音具有鲁棒性的声纹识别系统.实验结果初步表明,相比于传统的声纹识别系统,在对自然语音的等错误率不变的情况下,该系统对合成语音的错误接受率由99.2%降为0. 展开更多
关键词 声纹识别 合成语音 实倒谱
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部