基于静音时长和文本特征融合的韵律边界自动标注被引量：2

Automatic prosodic boundary labeling based on fusing the silence duration with the lexical features

导出

摘要韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而获得最优标注。以词为单位提取了静音时长,与传统以帧为单位的声学特征相比更具有明确的物理意义,与韵律边界的联系更加紧密。实验结果表明：相比传统声学特征,该文所采用的静音时长特征使自动韵律标注的性能有所提高;相比直接特征层面的方法,决策融合方法更好地结合了声学和文本的特征,进一步提高了标注的性能。 Automatic prosodic boundary labeling is important in the construction of a speech corpus for speech synthesis. Automatic labeling of prosodic boundaries gives more consistent results than manual labeling of prosodic boundaries which is time consuming and inconsistent. Manual labeling method is modelled here using a recurrent neural network to train two sub-models which use lexical features and acoustic features to label the prosodic boundaries. Model fusion is then used to combine the outputs of the two sub-models to obtain the optimal labeling results. The silence durations for each word give clearer physical meanings and better correlations with the prosodic boundaries than the acoustic features used in traditional methods extracted frame-by frame. Tests show that the silence durations extracted using the current acoustic features and the model fusion method improve the prosodic boundary labeling compared with previous feature fusion methods.

作者傅睿博陶建华李雅温正棋

机构地区中国科学院自动化研究所、模式识别国家重点实验室中国科学院大学人工智能技术学院中国科学院自动化研究所、中国科学院脑科学与智能技术研究中心

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2018年第1期61-66,74,共7页 Journal of Tsinghua University(Science and Technology)

基金国家“八六三”高技术项目(2015AA016305) 国家自然科学基金面上项目(61425017,61403386) 中国科学院战略性先导科技专项(GrantXDB02080006) 中国社会科学基金重大项目(13&ZD189)

关键词韵律边界标注决策融合静音时长语料库构建语音合成 prosodic boundary labeling ensemble strategy silence duration corpus construction speech synthesis

分类号 H116.4 [语言文字—汉语] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献10

1李宏言,范利春,高鹏,徐波.大数据语音语料库的社会标注技术[J].清华大学学报（自然科学版）,2013,53(6):908-912. 被引量：8
2韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
3陈盼弟,黄华,何凌.基于自相关和倒谱法的基音检测改进算法[J].计算机应用与软件,2015,32(1):163-166. 被引量：10
4徐世鹏,杨鸿武,王海燕.面向藏语语音合成的语音基元自动标注方法[J].计算机工程与应用,2015,51(6):199-203. 被引量：6
5魏云超,赵耀.基于DCNN的图像语义分割综述[J].北京交通大学学报,2016,40(4):82-91. 被引量：44
6仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报,2018,43(2):263-272. 被引量：13
7唐素勤,孙亚茹,李志欣,张灿龙.基于强化学习的壮语词性标注[J].计算机工程,2020,46(4):309-315. 被引量：2
8鲁雨佳,陈实,帅世辉,王禹溪,杨昌源,孙凌云.基于剪辑元素属性约束的可计算产品展示视频自动剪辑框架[J].计算机辅助设计与图形学学报,2020,32(7):1101-1110. 被引量：4
9王成龙,易江燕,陶建华,马浩鑫,田正坤,傅睿博.基于全局时频注意力网络的语音伪造检测[J].计算机研究与发展,2021,58(7):1466-1475. 被引量：2
10曾昭霖,严馨,徐广义,陈玮,邓忠莹.基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法[J].小型微型计算机系统,2023,44(1):185-192. 被引量：6

引证文献2

1何俊,张彩庆,张云飞,张德海,李小珍.基于双层特征的彝语数据情感自动标注方法[J].计算机应用,2020,40(10):2850-2855. 被引量：1
2刘臣,倪仁倢,周立欣,侯昌佑.多声学特征融合的语音自动剪辑深度学习模型[J].小型微型计算机系统,2023,44(8):1713-1719.

二级引证文献1

1董蔚楠.基于FSVM算法的多模态情感数据自动采集方法[J].自动化技术与应用,2023,42(12):103-107.

1翁佳.智能语音技术对播音主持专业与行业影响探究[J].电视研究,2017(12):57-59. 被引量：37
2李亚男.越南留学生汉语陈述句停延率习得研究[J].现代语文（上旬．文学研究）,2017(10):135-141. 被引量：1
3高明柯,陈一民,张典华,吕圣卿,黄晨.基于证据理论融合的手势识别方法研究[J].计算机应用与软件,2018,35(1):191-194.
4高思畅,王建勤.韩国汉语学习者口语韵律组块的特征[J].云南师范大学学报（对外汉语教学与研究版）,2018,16(1):17-27. 被引量：7
5徐晓枫.媒体业中的人工智能发展现状[J].电视工程,2017,0(4):56-57. 被引量：2
6李德岭,刘克,季楠.多学科交叉融合方法用于改进神经解剖教学的探索[J].医学教育管理,2017,3(A02):37-39. 被引量：6
7古力米热.依玛木,姑丽加玛丽.麦麦提艾力,玛依努尔.阿吾力提甫,艾斯卡尔.艾木都拉.维吾尔语韵律建模[J].清华大学学报（自然科学版）,2017,57(12):1259-1264.
8孙昊,黄樟灿.基于深度卷积网络的高速公路事件检测研究[J].武汉理工大学学报（信息与管理工程版）,2017,39(6):683-688. 被引量：4
9贺婉莹,杨建林.基于随机游走模型的排序学习方法[J].数据分析与知识发现,2017,1(12):41-48. 被引量：2
10张永萍,娄瑞娟.农林英汉术语平行语料库建设初探[J].北京林业大学学报（社会科学版）,2017,16(4):79-82. 被引量：7

清华大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

基于静音时长和文本特征融合的韵律边界自动标注被引量：2

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于静音时长和文本特征融合的韵律边界自动标注 被引量：2

同被引文献10

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于静音时长和文本特征融合的韵律边界自动标注被引量：2