结合分层条件随机场与标点符号的维吾尔语韵律边界预测被引量：4

Uyghur Language Prosodic Boundary Prediction Combined with Hierarchical Conditional Random Field and Punctuation

下载PDF

导出

摘要韵律结构的正确预测是高自然度语音合成系统的重要组成部分。针对维吾尔语的黏着性特点,给出其相应的韵律层次结构,采用基于条件随机场(CRF)的分层自底向上方法预测维吾尔语的韵律词和韵律短语边界,并将维吾尔语形态特征作为韵律边界预测模型的重要特征。为进一步纠正韵律边界预测错误并消除标点符号边界中不同韵律边界之间的歧义,以标点符号边界为单位建立基于CRF的标点符号韵律边界预测模型,并与双层自底向上CRF模型相结合,提出一种韵律边界预测方法。通过对不同的特征模板和模型进行反复实验,以得到更好的韵律边界预测性能。实验结果表明,该方法明显提高了韵律边界的预测召回率。 Correct prosodic boundary prediction is crucial for the quality of synthesized speech. This paper presents the prosodic hierarchy of Uyghur language which belongs to agglutinative language. A two-layer bottom-up hierarchical approach based on Conditional Random Field （CRF） is used for predicting prosodic word and prosodic phrase boundaries. Morphological features are considered useful for prosodic boundary prediction and added into the feature sets. In order to further enhance the accuracy of prosodic boundary prediction at punctuation sites, CRF based prosodic boundary determination method is used and integrated with bottom-up hierarchical approach. Consequently, the best prosodic boundary prediction performance is achieved by large and repeated experiment of different feature sets and different models. Experimental results show that the proposed method obviously improves the recall rate prediction of the prosodic boundary.

作者姑丽加玛丽.麦麦提艾力艾斯卡尔.肉孜古力米热.依玛木艾斯卡尔.艾木都拉

机构地区新疆师范大学数学科学学院新疆大学数学与系统科学学院新疆师范大学文学院新疆大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2015年第11期299-302,307,共5页 Computer Engineering

基金国家自然科学基金资助项目(61462087) 教育部社科基金资助项目(10YJA740027) 新疆维吾尔自治区高校科研计划基金资助项目(XJEDU2013S27) 新疆师范大学博士博士后科研启动基金资助项目(XJNUBS1308)

关键词维吾尔语韵律边界分层方法标点符号形态特征 Uyghur language prosodic boundary hierarchical approach punctuation morphological feature

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Taylor P, Black A W. Assigning Phrase Breaks from Part-of-Speech Sequences [J]. Computer Speech and Language, 1998,12:99-117.
2Yang Chenyu, Ling Zhenhua, Dai Lirong. Unsupervised Pro-sodic Phrase Boundary Labeling of Mandarin Speech Syn-thesis Database Using Context-dependent HMM[ C]// Pro-ceedings of the 38th IEEE International Conference on Acoustics ,Speech and Signal Processing. Washington D. C., USA : IEEE Press ,2013:6875-6879.
3Chu Min, Qian Yao. Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts [ J ]. Com- putational Linguistics and Chinese Language Processing, 2001,6(1) :61-82.
4Xu Dawei, Wang Haifeng, Li Guohua, et al. Parsing Hierarchical Prosodic Structure for Mandarin Speech Synthesis [ C ]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C. ,USA :IEEE Press ,2006 : 1745-1748.
5Prahallad K, Raghavendra V, Black A. Learning Speaker- specific Phrase Breaks for Text-to-Speech Systems [ C ]// Proceedings of Speech Synthesis Workshop. Kyoto, Japan:[ s. n. ] ,2010.
6李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
7Zhang Xiaonan, Xu Jun, Cai Lianhong. Prosodic Boundary Prediction Based on Maximum Entropy Model with Error-driven Modification [ C ]//Proceedings of International Symposium on Chinese Spoken Language Processing. Singapore : [ s. n. ] ,2006 : 149-160.
8Liu Fangzhou, Jia Huibin, Tao Jianhua. A Maximum Entropy Based Hierarchical Model for Automatic Prosodic Boundary Labeling in Mandarin [ C]//Proceedings of the 6th International Symposium on Chinese Spoken Language Processing. Kunming ,China: [ s. n. ] ,2008:253-256.
9古力米热·依玛木,艾斯卡尔·艾木都拉.维吾尔语句韵律层级的人工标注规则研究[C]//第三届全国少数民族青年自然语言信息处理学术研讨会论文集.乌鲁木齐:[出版者不详],2010:179-182.
10Lafferty J,McCallum A, Pereira F. Conditional Random Fields :Probabilistic Models for Segmenting and Labeling Sequence Data [ C]//Proceedings of the 18th Inter- national Conference on Machine Learning. Burlington, USA : Morgan Kaufrnann Publishers, 2001 : 282-289.

二级参考文献12

1M. Chu, Y. Qian, Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts[J]. Computational Linguistics and Chinese Language Processing, February 2001,6(1) :61 - 82.
2Bachenko J, Fitzpatrick E. A computational grammar of discourse-neutral prosodic phrasing in English[J]. Computational Linguistics, 1990, 16(3): 155-170.
3J. Hirschberg, P. Prieto. Training intonational phrasing rules automnatically for English and Spanish text-to-speech[J]. Speech Communication, 1996.
4G. J. Busser, W. Daelemans, Van den Bosch, A. Predicting phrase breaks with memory-based learning[A]. Proceedings 4th ISCA Tutorial and Research Workshop on Speech Synthesis[ C], Perthshire Scotland, August 29th - September 1st, 2001.
5Adam L. Berger, Stephen A. Della Pietra, Vincent J. Della Pietra. A maximum entropy approach to natural language processing[J]. Computational Linguistics 1996, 23(4): 597-618.
6Adwait Ratnaparkhi. A Maximum Entropy Part-Of-Speech Tagger[ A]. Proceedings of the Empirical Methods in Natural Language Processing Conference[C], May 17- 18, 1996.
7Hanna Wallach. Efficient training of conditional random fields[D]. Master's thesis, University of Edinburgh, 2002.
8Adwait Ratnaparkhi. (1998). Maximum Entropy Models for Natural Language Ambiguity Resolution[ D ]. Ph. D.Dissertation. University of Pennsylvania, 1998.
9牛正雨,柴佩琪.基于边界点词性特征统计的韵律短语切分[J].中文信息学报,2001,15(5):19-25. 被引量：13
10赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测[J].中文信息学报,2002,16(5):30-37. 被引量：25

共引文献19

1冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
2荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
3钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
4董宏辉,陶建华,徐波.基于约束模型的韵律短语预测[J].中文信息学报,2007,21(1):54-59. 被引量：6
5陈龙,杨鸿武,蔡莲红.基于TBL算法的汉语韵律词预测[J].西北师范大学学报（自然科学版）,2008,44(1):47-51. 被引量：6
6钱揖丽,荀恩东.基于分类回归树CART的汉语韵律短语边界识别[J].计算机工程与应用,2008,44(6):169-171. 被引量：3
7邵艳秋,穗志方,韩纪庆,吴云芳.基于依存句法分析的汉语韵律层级自动预测技术研究[J].中文信息学报,2008,22(2):116-123. 被引量：6
8钱揖丽,荀恩东.基于标点信息和统计语言模型的语音停顿预测[J].模式识别与人工智能,2008,21(4):541-545. 被引量：8
9杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红.基于语法树高度的汉语韵律短语预测[J].计算机工程与应用,2010,46(36):139-143. 被引量：6
10刘方舟,陶建华.语调短语预测中的特征模板自动生成[J].计算机工程与应用,2011,47(16):19-21.

同被引文献29

1裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
2栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：110
3耿世民.古代维吾尔族的书写文化[J].喀什师范学院学报,2005,26(2):22-26. 被引量：5
4周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
5刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J].软件学报,2006,17(9):1876-1883. 被引量：24
6洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
7钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9朱维彬,吕士楠.基于语义的语音合成——语音合成技术的现状及展望[J].北京理工大学学报,2007,27(5):408-412. 被引量：8
10陈龙,杨鸿武,蔡莲红.基于TBL算法的汉语韵律词预测[J].西北师范大学学报（自然科学版）,2008,44(1):47-51. 被引量：6

引证文献4

1王柳渝.基于语义角色的汉语韵律短语预测[J].广东通信技术,2017,37(1):67-69.
2李勇,王柳渝,魏珰.基于依存信息融合特征的汉语韵律预测[J].计算机工程,2018,44(1):306-310. 被引量：1
3苏晓宝,刘臣,唐莉.基于线性链条件随机场的用户生成文本标点标注[J].软件,2019,40(4):145-149.
4徐学斌,吾尔尼沙·买买提,阿力木江·艾沙,朱亚俐,库尔班·吾布力.聚类+连体段判别的维吾尔文档图像单词切分[J].计算机工程与应用,2020,56(14):148-155. 被引量：1

二级引证文献2

1向程冠,熊世桓,王东,熊伟程.基于关联规则与相似度的社交好友推荐算法[J].计算机工程,2019,45(4):175-180. 被引量：14
2宋志平,朱亚俐,吾尔尼沙·买买提,徐学斌,库尔班·吾布力.基于层次匹配的维吾尔文关键词图像检索[J].计算机工程与设计,2022,43(12):3461-3467. 被引量：1

1姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.分层特征模板筛选的维吾尔语韵律边界预测[J].计算机工程与应用,2017,53(8):250-253.
2曹剑芬.基于语法信息的汉语韵律结构预测[J].中文信息学报,2003,17(3):41-46. 被引量：41
3努尔比娅.塔依尔,地里木拉提.吐尔逊,艾斯卡尔.肉孜.面向韵律层边界自动划分的维吾尔语词性自动标注技术研究[J].计算机应用与软件,2011,28(8):165-168. 被引量：1
4钱揖丽,蔡滢滢.采用无标注语料和词“粘连”剔除策略的韵律短语识别[J].计算机科学,2016,43(2):51-56.
5姚世军.面向对象程序设计的分解与归纳方法[J].计算机应用研究,1997,14(2):41-42.
6郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
7程勇,吴玺宏,迟惠生.汉语韵律边界定位与选音算法研究[J].北京大学学报（自然科学版）,2004,40(3):451-457.
8吴晓如,王仁华,刘庆峰.基于韵律特征和语法信息的韵律边界检测模型[J].中文信息学报,2003,17(5):48-54. 被引量：7
9董远,周涛,董乘宇,王海拉.条件随机场模型在韵律结构预测中的应用[J].北京邮电大学学报,2009,32(5):36-40. 被引量：2
10王静,刘志镜.基于概率模型的Web信息抽取[J].模式识别与人工智能,2010,23(6):847-855. 被引量：4

计算机工程

2015年第11期

浏览历史

内容加载中请稍等...

结合分层条件随机场与标点符号的维吾尔语韵律边界预测被引量：4

参考文献13

二级参考文献12

共引文献19

同被引文献29

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合分层条件随机场与标点符号的维吾尔语韵律边界预测 被引量：4

参考文献13

二级参考文献12

共引文献19

同被引文献29

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合分层条件随机场与标点符号的维吾尔语韵律边界预测被引量：4