期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于特征均值距离的短语音段说话人聚类算法 被引量:9
1
作者 李艳雄 吴永 贺前华 《电子与信息学报》 EI CSCD 北大核心 2012年第6期1404-1407,共4页
该文提出一种基于特征均值距离的短语音段说话人聚类算法。首先,定义特征均值距离用来在特征层而不是模型层刻画两个类之间的相似度;然后,迭代合并特征均值距离最小的两个类,直到任意两类之间的特征均值距离的最小值大于一个自适应门限... 该文提出一种基于特征均值距离的短语音段说话人聚类算法。首先,定义特征均值距离用来在特征层而不是模型层刻画两个类之间的相似度;然后,迭代合并特征均值距离最小的两个类,直到任意两类之间的特征均值距离的最小值大于一个自适应门限为止。采用取自两个语音数据库的短于3 s的语音段进行实验测试,结果表明:与基于AHC+BIC的算法相比,F度量值平均提高了5%,运算速度约为以前算法的4.68倍。 展开更多
关键词 语音信号处理 说话人聚类 特征均值距离 短语音段
下载PDF
语音识别中的一种说话人聚类算法 被引量:4
2
作者 肖述才 欧智坚 王作英 《中文信息学报》 CSCD 北大核心 2005年第4期84-88,共5页
本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适... 本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR距离作为距离测度的时候,该算法对句子的聚类正确率达85·69%;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。 展开更多
关键词 计算机应用 中文信息处理 说话人聚类 说话人自适应 语音识别
下载PDF
基于变分贝叶斯改进的说话人聚类算法 被引量:2
3
作者 李敬阳 李锐 +1 位作者 王莉 王晓笛 《数据采集与处理》 CSCD 北大核心 2017年第1期54-61,共8页
说话人聚类是说话人分离中的一个重要过程,然而传统的以贝叶斯信息准则作为距离测度的层次聚类方式,会出现聚类误差向上传递的情况。本文提出了一种逐级算法增强处理机制。当片段之间的最小贝叶斯信息准则距离超过设定的门限值时,或者... 说话人聚类是说话人分离中的一个重要过程,然而传统的以贝叶斯信息准则作为距离测度的层次聚类方式,会出现聚类误差向上传递的情况。本文提出了一种逐级算法增强处理机制。当片段之间的最小贝叶斯信息准则距离超过设定的门限值时,或者类别个数到达一定程度时,将当前聚类结果作为初始类中心,通过变分贝叶斯迭代法重新对每个类别中的片段调优,最后再依据概率线性判别分析得分门限确定说话人个数。实验表明,本文方法在美国国家标准技术署08summed测试集上,使得"类纯度"和"说话人纯度"比传统算法都有了一定提升,且使得说话人分离整体性能相对提升了27.6%。 展开更多
关键词 说话人聚类 贝叶斯信息准则 概率线性判别分析 变分贝叶斯
下载PDF
基于特征融合的说话人聚类算法 被引量:6
4
作者 郑艳 姜源祥 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第7期952-959,共8页
针对单一声学特征和k-means算法在说话人聚类技术中的局限性,为了更好地表达说话人的个性信息并提高说话人聚类的准确率,将特征融合和AE-SOM神经网络应用于说话人聚类中,提出一种改进的说话人聚类算法.该算法通过对语音信号特征分析,将M... 针对单一声学特征和k-means算法在说话人聚类技术中的局限性,为了更好地表达说话人的个性信息并提高说话人聚类的准确率,将特征融合和AE-SOM神经网络应用于说话人聚类中,提出一种改进的说话人聚类算法.该算法通过对语音信号特征分析,将MFCC特征参数和LPCC特征参数相结合,从而完善说话人的个性信息.并在k-means的基础上增加AE-SOM神经网络,利用该网络实现输入特征的降维、说话人数的判定和聚类中心的选取,从而弥补k-means算法的缺陷.仿真实验表明两种声学特征融合之后,改进的聚类算法可有效地提高说话人聚类的准确率. 展开更多
关键词 声学特征 K-MEANS 说话人聚类 特征融合 AE-SOM 神经网络
下载PDF
基于高斯混合模型差别度量的说话人聚类 被引量:1
5
作者 彭煊 王炳锡 《计算机工程与应用》 CSCD 北大核心 2005年第5期99-102,共4页
基于高斯混合模型(GaussianMixtureModel,M)间差别的方法是进行说话人聚类的常用的一类方法。该文GM提出两种新颖的GMM差别度量,“类散度”和GMM的相互概率。“类散度”即模型间“离散度”与模型内“离散度”之比,在计算中综合考虑了GM... 基于高斯混合模型(GaussianMixtureModel,M)间差别的方法是进行说话人聚类的常用的一类方法。该文GM提出两种新颖的GMM差别度量,“类散度”和GMM的相互概率。“类散度”即模型间“离散度”与模型内“离散度”之比,在计算中综合考虑了GMM各个胞腔的权值、均值及方差的影响,全面地反映了高斯混合模型参数的差别。GMM的相互概率即其中一个GMM的参数在另一个GMM下的概率。实验证明,两种方法均能很好地描述GMM间的差别,在说话人聚类实验中表现良好。 展开更多
关键词 说话人聚类 高斯混合模型 散度
下载PDF
应用说话人聚类技术改善语言辨识系统识别率
6
作者 张强 屈丹 +1 位作者 侯风雷 王炳锡 《电声技术》 2007年第3期44-48,共5页
说话人差异是影响语言辨识系统性能的一个重要方面。采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统。高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实... 说话人差异是影响语言辨识系统性能的一个重要方面。采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统。高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率。 展开更多
关键词 说话人聚类 高斯混合模型-全局背景模型 遍历隐马尔可夫模型
下载PDF
基于远近距离的说话人聚类算法
7
作者 陈雪芳 杨继臣 《科学技术与工程》 北大核心 2013年第12期3297-3300,共4页
提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在... 提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在近距离的说话人聚类中,使用T2公式比使用BIC和KL在语音块准确率方面分别高出2.62%和13.84%,在远距离的说话人聚类中,使用谱聚类算法基本上可以把语音中的说话人数目计算出来,当说话人数目为15时,类纯度和说话人纯度可以达到78%,说明该算法可以有效地对说话人进行聚类。 展开更多
关键词 说话人聚类 近距离 远距离
下载PDF
交叉对数似然度和贝叶斯信息判据的说话人聚类算法 被引量:3
8
作者 刘倓倓 潘接林 +1 位作者 索洪斌 颜永红 《声学技术》 CSCD 北大核心 2007年第6期1181-1185,共5页
说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似... 说话人分段聚类的任务是将一段语音中由同一说话人发出的语音聚合起来。文中提出了一种基于交叉对数似然度(Cross Log-likelihood Ratio,CLR)和贝叶斯信息判据(Bayesian information criterion,BIC)相结合的说话人聚类算法。交叉对数似然度用于计算语音段间的相似度;而贝叶斯判据则提供了一种比较适当的停止聚类的准则,该算法结合了两种方法的优点,在无监督说话人聚类中得到了较好的应用。实验结果表明,基于交叉对数似然度和贝叶斯判据的说话人聚类方法,比单纯利用交叉对数似然度的方法准确度高。 展开更多
关键词 说话人聚类 交叉对数似然度 贝叶斯判据
下载PDF
基于因子分析建模的电话语音说话人聚类 被引量:1
9
作者 吴奎 宋彦 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2013年第1期1-5,共5页
现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够.对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通... 现有基于混合高斯模型的说话人聚类方法主要依据最大后验准则,从通用背景模型中自适应得到类别的混合高斯模型,然而自适应数据较少,模型的准确性不够.对此,文中尝试基于本征语音(EV)空间和全变化(TV)空间分析的两种因子分析建模方法,通过对差异空间的建模,减少估计类别混合高斯模型时需要估计的参数个数.结果表明,在美国国家标准技术研究所2008年说话人识别评测的电话语音数据集上,相对于基于最大后验概率准则的基线系统而言,文中所使用的基于EV和TV空间分析的建模方法都可使聚类错误率有较大幅度的下降,并且TV空间分析建模相对于EV空间分析建模能获得更低的聚类错误率. 展开更多
关键词 说话人聚类 本征语音空间 全变化空间 交叉似然比
下载PDF
基于矢量量化的时序说话人聚类方法 被引量:5
10
作者 陈祝允 李艳雄 杜佳媛 《科学技术与工程》 北大核心 2014年第2期41-44,共4页
针对传统分层聚类方法运算速度较慢的问题,提出一种基于矢量量化的时序说话人聚类方法。首先对各语音段的特征进行矢量量化得到各语音段的码本,然后采用贝叶斯信息判据计算各码本之间的距离,最后按时间先后顺序进行说话人聚类。采用会... 针对传统分层聚类方法运算速度较慢的问题,提出一种基于矢量量化的时序说话人聚类方法。首先对各语音段的特征进行矢量量化得到各语音段的码本,然后采用贝叶斯信息判据计算各码本之间的距离,最后按时间先后顺序进行说话人聚类。采用会议和新闻语音数据进行测试,实验结果表明:会议语音的说话人聚类F值为73.47%,新闻语音的说话人聚类F值为80.00%;在处理速度方面,该方法比无矢量量化时序聚类方法提高了3.16倍,比传统分层聚类方法提高了53.31倍。 展开更多
关键词 时序说话人聚类 矢量量化 贝叶斯信息判据 梅尔频率倒谱系数
下载PDF
结合两种距离测度的说话人聚类算法 被引量:1
11
作者 陈玥同 刘学亮 《小型微型计算机系统》 CSCD 北大核心 2015年第10期2369-2373,共5页
说话人聚类研究如何将一段语音中同一说话人的语音聚合.提出一种基于结合广义似然比与归一化交叉似然比两种距离测度的聚类算法.算法首先提取每一段语音信号的MFCC特征,并建立高斯混合模型,最后采用基于结合广义似然比与归一化交叉似然... 说话人聚类研究如何将一段语音中同一说话人的语音聚合.提出一种基于结合广义似然比与归一化交叉似然比两种距离测度的聚类算法.算法首先提取每一段语音信号的MFCC特征,并建立高斯混合模型,最后采用基于结合广义似然比与归一化交叉似然比两种距离测度的层次化策略对语音信号进行聚类.在算法中,贝叶斯判据用以确定聚类结束的条件.实验表明,该算法提高了系统的综合性能,较好的解决了无监督说话人聚类问题.结合两种距离测度比单独使用任何一种距离测度的系统性能提高了6%.并且,通过改进更新类间距的方式,聚类速度相比传统高斯混合模型聚类方法提升6倍. 展开更多
关键词 说话人聚类 广义似然比 归一化交叉似然比 贝叶斯判据
下载PDF
说话人聚类的初始类生成方法
12
作者 赖松轩 李艳雄 《计算机工程与应用》 CSCD 北大核心 2017年第3期149-153,共5页
目前说话人聚类时将说话人分割后的语音段作为初始类,直接对这些数量庞大语音段进行聚类的计算量非常大。为了降低说话人聚类时的计算量,提出一种面向说话人聚类的初始类生成方法。提取说话人分割后语音段的特征参数及特征参数的质心,... 目前说话人聚类时将说话人分割后的语音段作为初始类,直接对这些数量庞大语音段进行聚类的计算量非常大。为了降低说话人聚类时的计算量,提出一种面向说话人聚类的初始类生成方法。提取说话人分割后语音段的特征参数及特征参数的质心,结合层次聚类法和贝叶斯信息准则,对语音段进行具有宽松停止准则的"预聚类",生成初始类。与直接对说话人分割后的语音段进行聚类的方法相比,该方法能在保持原有聚类性能的情况下,减少40.04%的计算时间;在允许聚类性能略有下降的情形下,减少60.03%以上的计算时间。 展开更多
关键词 层次 贝叶斯信息准则 说话人聚类 初始 语音信号处理
下载PDF
改进的基于决策树的说话人在线聚类 被引量:1
13
作者 张素敏 苏东林 王炜 《光学精密工程》 EI CAS CSCD 北大核心 2010年第1期227-233,共7页
针对采用传统的在线聚类方法时后续判决错误率较高的缺点,提出了一种改进的基于决策树的在线说话人聚类算法。通过构建一个决策树,增加判决分支,对语音段进行判决聚类,从而有效降低前期错误判决对后续聚类的影响。为了进一步提高算法效... 针对采用传统的在线聚类方法时后续判决错误率较高的缺点,提出了一种改进的基于决策树的在线说话人聚类算法。通过构建一个决策树,增加判决分支,对语音段进行判决聚类,从而有效降低前期错误判决对后续聚类的影响。为了进一步提高算法效率,缩短运算时间,还给出了一种决策树剪枝方法,减少了不合理的判决分支。通过对广播新闻语料进行的说话人聚类实验表明,相比传统的层次聚类算法,新算法的平均类纯度和说话人纯度分别提高了0.9%和1.1%,计算时间减少了57%。实验结果还表明,相比手工标注说话人信息,将该算法的聚类结果应用于说话人自适应可降低系统的误识率。 展开更多
关键词 说话人聚类 在线 决策树 剪枝算法
下载PDF
基于说话人聚类的说话人自适应
14
作者 王坚 《计算机与信息技术》 2007年第7期9-11,共4页
本文提出一种改进的基于模型差别度量的说话人聚类(Speaker Clustering)方法,并将该说话人聚类算法结合最大似然线性回归算法(Maximum Likelihood Linear Regression,MLLR)构成整体的说话人自适应框架。将该方法应用于以音素为识别基元... 本文提出一种改进的基于模型差别度量的说话人聚类(Speaker Clustering)方法,并将该说话人聚类算法结合最大似然线性回归算法(Maximum Likelihood Linear Regression,MLLR)构成整体的说话人自适应框架。将该方法应用于以音素为识别基元的汉语连续语音识别系统中,可能够提高系统的识别率,较好的满足快速性和渐进性。实验结果表明,该方法能够在仅有一句自适应数据的情况下,使系统字正识率由40.43%提高到50.86%. 展开更多
关键词 差别度量 说话人聚类 说话人自适应
原文传递
多模型融合的VoxSRC22说话人日志系统
15
作者 杜雨轩 周若华 《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)... 为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。 展开更多
关键词 说话人日志 语音活动检测 声纹嵌入 说话人聚类 结果融合
下载PDF
基于音频的电视新闻节目的主题检索和聚类
16
作者 王磊 杜利民 王劲林 《电子与信息学报》 EI CSCD 北大核心 2007年第10期2498-2503,共6页
随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语... 随着流媒体应用的蓬勃兴起,基于媒体内容的检索和管理逐渐成为当前的学术研究热点。新闻节目作为电视节目的一种常见形式,对其主题进行自动提取检索具有重要的实际意义。该文从电视新闻节目的音频入手,综合应用了播音室语音/非播音室语音分类、说话人转换点检测以及按说话人聚类等多种技术,实现了对电视新闻节目的主题的检索和聚类。实验表明,该文中的方法能够找到新闻节目中96%以上的播音室段落,并对其进行准确归类,显示了这种方法的可行性和潜在价值。 展开更多
关键词 新闻主题检索 音频分 说话人检测 说话人聚类 贝叶斯信息准则
下载PDF
基于跨模态的无监督影视剧说话人识别
17
作者 冯骋 库天锡 +3 位作者 杨卫星 李雪蒙 谭小琼 梁超 《计算机应用与软件》 CSCD 2016年第5期132-135,147,共5页
现如今,影视剧的海量增长给其有效管理带来了巨大挑战,而其中的角色识别在影视剧内容管理中具有重大意义。传统的角色识别主要采用依赖于训练样本质量的有监督学习,而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别,提出一... 现如今,影视剧的海量增长给其有效管理带来了巨大挑战,而其中的角色识别在影视剧内容管理中具有重大意义。传统的角色识别主要采用依赖于训练样本质量的有监督学习,而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别,提出一种跨模态的无监督说话人识别方法:首先基于声学特征和时间近邻性的音频聚类获得对应聚类结果的音频标记序列;然后通过剧本解析获得对应说话人、说话内容、说话时间的文本标记序列;接着将音频序列与文本序列进行跨模态序列匹配,构造满射解出最小编辑距离,从而实现说话人识别。实验结果表明,在训练集较少的情况下该方法比有监督方法具有更高识别率。 展开更多
关键词 说话人识别 说话人聚类 编辑距离 混合高斯模型 序列匹配
下载PDF
基于语速差异的新闻发布会中首要说话人检测
18
作者 吴伟 李艳雄 +1 位作者 王梓里 陈祝允 《计算机工程与应用》 CSCD 北大核心 2015年第4期222-225,231,共5页
新闻发布会中,首要说话人(例如政府要员)通常要即兴回答记者事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如记者、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段... 新闻发布会中,首要说话人(例如政府要员)通常要即兴回答记者事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如记者、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段语速得到一条语速曲线,然后寻找语速曲线中的局部最小值进而得到两类说话人的改变点,最后将语速低于门限且在两相邻改变点之间的语音段判为首要说话人语音,从而实现首要说话人检测。实验结果表明,与传统方法相比,基于语速差异的方法获得了更好的性能。 展开更多
关键词 新闻发布会语音 语速差异 首要说话人 说话人分割 说话人聚类
下载PDF
对话语音中实时说话人检测的研究
19
作者 刘大鹏 朱庆生 《小型微型计算机系统》 CSCD 北大核心 2008年第2期381-384,共4页
基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段法.该方法保证了音节的完整性,提高了说话人识别率.另外利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中聚类的方法,有效的降低了计算时间,并为某... 基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段法.该方法保证了音节的完整性,提高了说话人识别率.另外利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中聚类的方法,有效的降低了计算时间,并为某些低配置环境提供了以牺牲少量识别率来换取系统正常运行的有效方法. 展开更多
关键词 说话人检测 端点检测 说话人分段 说话人聚类
下载PDF
基于说话人的音频分割与聚类 被引量:5
20
作者 李稀敏 洪青阳 黄晓丹 《心智与计算》 2010年第2期139-147,共9页
说话人分割与聚类主要应用于两个方面的问题,一方面可以用于自动语音识别的说话人自适应;另一方面可用于说话人检索和富文本转录。主要包括三个过程:有效语音检测、说话人分割以及说话人聚类。本文主要就这三个方面展开叙述,全面地介绍... 说话人分割与聚类主要应用于两个方面的问题,一方面可以用于自动语音识别的说话人自适应;另一方面可用于说话人检索和富文本转录。主要包括三个过程:有效语音检测、说话人分割以及说话人聚类。本文主要就这三个方面展开叙述,全面地介绍了各类算法。 展开更多
关键词 有效语音检测 说话人分割 说话人聚类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部