针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系...针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段:1)基于受约束的最大似然线性回归(Constr ained maximum likelihood linear regression,CMLLR)的声学模型自适应;2)基于全局N元文法的音位特征向量自适应;3)VSM模型中的支持向量机(Support vector machines,SVM)自适应.在综合采用多种自适应技术后,PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段,基于不同音素识别器的PRVSM系统的等错误率(Equal errorrate,EER)分别相对降低了18%~23%、12%~20%以及5%~9%.展开更多
对汉语自然对话语音索引问题进行了研究.比较了不同单元格的识别和检索性能,提出不同单元格的转换方法、格间的融合方法以及格内节点与边的合并方法.格转换实现了识别单元和索引单元的分离,词格转换得到的无调音节格将品质因数(Figure o...对汉语自然对话语音索引问题进行了研究.比较了不同单元格的识别和检索性能,提出不同单元格的转换方法、格间的融合方法以及格内节点与边的合并方法.格转换实现了识别单元和索引单元的分离,词格转换得到的无调音节格将品质因数(Figure of merit,FOM)从基线系统的69.2%提高到73.7%;格间融合综合利用多个格的信息,将FOM进一步提高到78.6%;格内合并对格进行了有效的压缩,使其可应用于海量语音检索.展开更多
研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提...研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提高识别性能.在采用多种信道补偿技术后,在NISTSRE2006年1训练语段-1测试语段同信道和跨信道数据库上,基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性,经过简单线性融合可以极大提高识别性能.展开更多
提出了一种应用于笔记本电脑的双频段八天线系统.该八天线系统由一个四天线系统、两个双天线系统和两个T形谐振带构成.在分析了四天线系统和两个双天线系统的耦合机理后,提出了减小耦合的方法.实测结果表明:天线样品在2.4-GHz无线局域网...提出了一种应用于笔记本电脑的双频段八天线系统.该八天线系统由一个四天线系统、两个双天线系统和两个T形谐振带构成.在分析了四天线系统和两个双天线系统的耦合机理后,提出了减小耦合的方法.实测结果表明:天线样品在2.4-GHz无线局域网(Wireless Local Area Network,WLAN)频段的-10dB公共阻抗带宽为90 MHz(2.4~2.49GHz),在5.2/5.8-GHz WLAN频段的-10dB公共带宽为0.9 GHz(5.15~6.05GHz),其中在5.15~5.19GHz频段内的反射系数为-9.5^-10dB;八个天线单元在2.4/5.2/5.8-GHz WLAN频段内的互耦均低于-15dB;在2.4-GHz和5.2/5.8-GHz WLAN频段内的增益分别高于2.7dBi和3.3dBi、效率分别高于53%和65%.根据实测三维辐射方向图计算了八天线系统的包络相关系数.展开更多
文摘针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配,从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vectorspace model,PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段:1)基于受约束的最大似然线性回归(Constr ained maximum likelihood linear regression,CMLLR)的声学模型自适应;2)基于全局N元文法的音位特征向量自适应;3)VSM模型中的支持向量机(Support vector machines,SVM)自适应.在综合采用多种自适应技术后,PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段,基于不同音素识别器的PRVSM系统的等错误率(Equal errorrate,EER)分别相对降低了18%~23%、12%~20%以及5%~9%.
文摘对汉语自然对话语音索引问题进行了研究.比较了不同单元格的识别和检索性能,提出不同单元格的转换方法、格间的融合方法以及格内节点与边的合并方法.格转换实现了识别单元和索引单元的分离,词格转换得到的无调音节格将品质因数(Figure of merit,FOM)从基线系统的69.2%提高到73.7%;格间融合综合利用多个格的信息,将FOM进一步提高到78.6%;格内合并对格进行了有效的压缩,使其可应用于海量语音检索.
文摘研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提高识别性能.在采用多种信道补偿技术后,在NISTSRE2006年1训练语段-1测试语段同信道和跨信道数据库上,基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性,经过简单线性融合可以极大提高识别性能.
文摘提出了一种应用于笔记本电脑的双频段八天线系统.该八天线系统由一个四天线系统、两个双天线系统和两个T形谐振带构成.在分析了四天线系统和两个双天线系统的耦合机理后,提出了减小耦合的方法.实测结果表明:天线样品在2.4-GHz无线局域网(Wireless Local Area Network,WLAN)频段的-10dB公共阻抗带宽为90 MHz(2.4~2.49GHz),在5.2/5.8-GHz WLAN频段的-10dB公共带宽为0.9 GHz(5.15~6.05GHz),其中在5.15~5.19GHz频段内的反射系数为-9.5^-10dB;八个天线单元在2.4/5.2/5.8-GHz WLAN频段内的互耦均低于-15dB;在2.4-GHz和5.2/5.8-GHz WLAN频段内的增益分别高于2.7dBi和3.3dBi、效率分别高于53%和65%.根据实测三维辐射方向图计算了八天线系统的包络相关系数.