大规模语音语料库及其在TTS中应用的几个问题被引量：12

Problems on Large-Scale Speech Corpus and the Applications in TTS

下载PDF

导出

摘要首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值. The recent advances of large-scale speech corpus （LSSC） and text-to-speech （TTS） technologies are briefly reviewed,then the architecture and annotation information of a large-scale speech corpus Slib are introduced.Based on Slib,the LSSC-oriented indexing methods is discussed,the set operations and the minimum cover problem related to information retrieval in LSSC are presented.The minimum cover problem is a NP-complete problem,and a greedy algorithm is proposed to obtain an approximation solution.The approximation ratio of the proposed algorithm is analyzed.The application and realization of set operations in TTS are presented,and an approach for choosing proper speech instances of linguistic units based on minimum cover is developed,which can improve the naturalness of the synthesized speech of TTS system.

作者章森刘磊刁麓弘

机构地区北京工业大学信息与计算科学实验室

出处《计算机学报》 EI CSCD 北大核心 2010年第4期687-696,共10页 Chinese Journal of Computers

基金国家自然科学基金(60572125)资助~~

关键词语音语料库集合运算文语转换最小包容信息检索 speech corpus set operation text to speech minimum cover information retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1孙岭胡郁王仁华.中文语音合成系统中的语料库设计[A]..第六届全国人机语音通讯学术会议论文集[C].,2001..
2汤胜良,张士礼,张志平,吴玺宏,迟惠生.基于新闻联播语料库的语音合成系统//第八届全国人机语音通讯学术会议.北京,2005.
3王天庆,李爱军.连续汉语语音识别语料库的设计//第6届全国现代语音学学术会议.天津,2003.
4蔡莲红,崔丹丹,蔡锐.汉语普通话语音合成语料库TH-CoSS的建设和分析[J].中文信息学报,2007,21(2):94-99. 被引量：12
5李爱军,殷治纲,王茂林,徐波,宗成庆.口语对话语音语料库CADCC和其语音研究//第5届现代语音学学术会议文集.北京,2001.
6Tao Jianhua, Yu Jian, Kang Yongguo. An expressive mandarin speech eorpus//Proceedings of the International Committee for the Co-ordination and Standardization of Speech Databases and Assessment Techniques. Bali Island, Indonesia, 2005.
7Wu Tian, Yang Yingchun, Wu Zhaohui, Li Dongdong. 2006 MASC: A speech corpus in mandarin for emotion analysis and affective speaker recognition//Proceedings of 2006 IEEE Odyssey--The Speaker and Language Recognition Workshop. San Juan, Puerto Rico, 2006.
8Chou Fu-Chiang, Tseng Chiu-Yu, Lee Lin-Shan. A set of corpus-based text-to-speech synthesis technologies for mandarin Chinese. IEEE Transactions on Speech and Audio Processing, 2002, 10(7): 481-494.
9Chou F C, Tseng C Y, Lee L S. Selection of waveform units for corpus-based mandarin speech synthesis based on decision trees and prosodic modification costs//Proceedings of the Eurospeech. Budapest, Hungary, 1999.
10Wang H C, Seide F, Tseng C Y, Lee L S. MAT-2000- Design, collection, and validation of a mandarin 2000-speaker telephone speech database//Proceedings of the 6th International Conference on Spoken Language Processing. Beijing, 2000.

二级参考文献6

1蔡莲红,赵世霞.汉语语音合成语料库的研究与建立[J].语言文字应用,1999(3):97-102. 被引量：6
2崔丹丹,蔡莲红.基于决策树的语料库分析[J].计算机工程,2006,32(21):3-5. 被引量：2
3Weibin Zhu, Wei Zhang, Corpus Building for Data-driven TTS Systems [A]. In: Proceedings of 2002IEEE Workshop on Speech Synthesis [C]. 11-13 Sept.2002. 199-202.
4孙岭，胡郁，王仁华．中文语音合成系统中的语料库设计[A]．第六届全国人机语音通讯学术会议[C]．深圳：2001．11．
5Yiqing ZU, Yingzhi CHEN. A Super Phonetic System and Multi-dialect Chinese Speech Corpus for Speech Recognition [A]. In: ISCSLP [C]. 2002.
6Blouin, C.,Bagshaw, P.C., Rosec, O.. A Method of Unit Pre_selection of Speech Synthesis Based on Acoustic Clustering and Decision trees [A]. In: ICASSP[C]. 2003.

共引文献13

1郑玉玲.韵律词边界的协同发音问题——对语音合成自然度的思考[J].清华大学学报（自然科学版）,2008,48(S1):645-651. 被引量：2
2徐英莹,张培仁.粤语语音合成系统语料库设计研究[J].计算机工程,2005,31(14):59-61. 被引量：2
3许可,迟名远,王成友,蔡宣平.基于语料库相似度的语料选择[J].计算机工程,2007,33(17):231-233.
4姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.三音素模型的维吾尔语最佳文本选取算法[J].计算机工程与应用,2009,45(18):242-244. 被引量：5
5杨鸿武,梁青青,郭威彤,李锦珑,陈龙.一个面向言语工程的兰州方言语料库[J].西北师范大学学报（自然科学版）,2009,45(6):54-59. 被引量：6
6严志宇,赵欣如,王璐,谢簪,李峤,谭军华.普通话测试语音信息库的设计与实现[J].计算机时代,2010(3):38-41. 被引量：1
7梁青青,杨鸿武,郭威彤,裴东,甘振业.利用五度字调模型实现普通话到兰州方言的转换[J].声学技术,2010,29(6):620-625. 被引量：3
8郭威彤,杨鸿武,梁青青,裴东.普通话到西安话的韵律转换[J].计算机工程与应用,2011,47(16):122-127.
9郭淑妮,图雅,斯琴高娃.蒙古语语音合成语料库的设计及韵律标注规范的建立[J].电脑与电信,2012(3):22-25. 被引量：2
10鲁小勇,杨鸿武,郭威彤,裴东.基于PAD三维情绪模型的情感语音韵律转换[J].计算机工程与应用,2013,49(5):230-235. 被引量：3

同被引文献131

1张皖志,陶建华.基于声韵母基元的嵌入式中文语音合成系统[J].信号处理,2005,21(z1):216-219. 被引量：1
2戴维·克里斯特尔,韦清琦.伦敦语言博物馆[J].国际博物馆,2008(3):85-92. 被引量：3
3孔江平.藏语（拉萨话）声调感知研究[J].民族语文,1995(3):56-64. 被引量：42
4井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
5张涛,左谨平,马华玲.FatFs在32位微控制器STM32上的移植[J].电子技术（上海）,2010(3):25-27. 被引量：37
6袁嵩.一个TTS系统的实现方案[J].计算机工程与应用,2004,40(21):121-122. 被引量：6
7毕晓君,静广宇,徐先锋.利用TTS技术实现文本文件的语音合成[J].自动化技术与应用,2004,23(9):49-51. 被引量：26
8杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
9PRAHALLAD Kishore,BLACK Alan.A text to speech interface for Universal Digital Library[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(11):1229-1234. 被引量：3
10王志明,陶建华.文本-视觉语音合成综述[J].计算机研究与发展,2006,43(1):145-152. 被引量：5

引证文献12

1张小燕,宿建军,薛化建,王磊.维吾尔语语音识别语料库中的OOV研究[J].计算机工程与设计,2012,33(2):772-776. 被引量：4
2加雄伟,邢建兵,李朝霞.短信业务与语音信箱业务的融合方案探讨[J].信息通信技术,2012,6(6):40-44.
3王大鹏.车载语音导航系统的语音语料库构建探究[J].电子测试,2013(4):4-6.
4林小平,鲁青,郭伟,邓杰航,王超.一种SmartFusion FPGA的快速语音合成系统设计[J].广东工业大学学报,2014,31(2):43-48. 被引量：3
5才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
6莫仕勋,杨富淋,黄智博,李裕进.基于TTS引擎的厂站中央信号系统动态模拟仿真[J].实验室研究与探索,2015,34(5):83-85.
7翁省辉,陈韦澔,陈匡林.基于Leap Motion手语翻译器的设计与实现[J].现代电子技术,2015,38(24):114-117. 被引量：8
8张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016,37(1):186-192. 被引量：29
9张扬,赵晓群,王缔罡.基于音节时间长度高斯拟合的汉语音节切分方法[J].计算机应用,2016,36(5):1410-1414. 被引量：5
10才让卓玛,才智杰.基于语料库的藏语语音合成单元选择算法[J].中文信息学报,2017,31(5):59-63. 被引量：2

二级引证文献54

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
2努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊.基于音节的维吾尔语大词汇连续语音识别系统[J].清华大学学报（自然科学版）,2013,53(6):741-744. 被引量：5
3努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊.维吾尔语大词汇语音识别系统识别单元研究[J].北京大学学报（自然科学版）,2014,50(1):149-152. 被引量：4
4刘豫军,夏聪.计算机语音合成技术研究及发展方向[J].网络安全技术与应用,2014(12):22-22. 被引量：4
5王丹蕾,聂桂平.手语翻译设备的发展现状及未来趋势[J].设计,2016,29(19):115-117. 被引量：2
6张扬,赵晓群,王缔罡.基于时频二维能量特征的汉语音节切分方法[J].计算机应用,2016,36(11):3222-3228. 被引量：5
7罗回彬,刘春丽,董思奇,陈锡柯,杨哲宇.Leap Motion体感控制器的智能移动机械臂控制系统[J].单片机与嵌入式系统应用,2017,17(1):40-43. 被引量：7
8艾斯卡尔·肉孜,殷实,张之勇,王东,艾斯卡尔·艾木都拉,郑方.THUYG-20：免费的维吾尔语语音数据库[J].清华大学学报（自然科学版）,2017,57(2):182-187. 被引量：13
9王彤,易绵竹.基于元音检测的俄语语音音节端点检测[J].郑州大学学报（理学版）,2017,49(4):34-39.
10杨静.手语学习系统的设计与开发[J].无线互联科技,2017,14(23):60-62. 被引量：1

1孙杏初.关节型机器人主连杆（手臂）参数的优化设计[J].北京航空航天大学学报,1996,22(4):509-512. 被引量：15
2热依曼.吐尔逊,依皮提哈尔.买买提.维吾尔语语音语料库管理软件的研究与实现[J].新疆大学学报（自然科学版）,2011,28(2):242-247. 被引量：7
3努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.面向大词汇量的维吾尔语连续语音识别研究[J].计算机工程与应用,2013,49(9):115-119. 被引量：7
4边江南,刘洪武.基于无源RFID的最小包容圆自适应定位法[J].计算机与现代化,2013(1):33-36.
5张文国.连续汉语语音识别技术[J].自动化博览,1997(6):21-22.
6王洪发.用遗传算法求空间点列的最小包容球[J].华东交通大学学报,2007,24(2):148-150.
7宫娜娜,武海艳.传感器网络节点分布均匀性与定位性能的关系[J].电子测量技术,2014,37(12):80-85. 被引量：9
8张勇,陈强.一种基于计算几何方法的最小包容圆求解算法[J].工程图学学报,2007,28(3):97-101. 被引量：9
9肉克艳木.买买提,热依曼.吐尔逊,吾守尔.斯拉木.维吾尔语语音标注复查软件的研究与实现[J].新疆大学学报（自然科学版）,2013,30(1):87-90. 被引量：2
10袁家宏.大规模语音语料库的采集、处理和研究[J].语言学研究,2017(1):34-42. 被引量：5

计算机学报

2010年第4期

浏览历史

内容加载中请稍等...

大规模语音语料库及其在TTS中应用的几个问题被引量：12

参考文献15

二级参考文献6

共引文献13

同被引文献131

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

大规模语音语料库及其在TTS中应用的几个问题 被引量：12

参考文献15

二级参考文献6

共引文献13

同被引文献131

引证文献12

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

大规模语音语料库及其在TTS中应用的几个问题被引量：12