汉语文语转换系统中停顿指数的自动标注被引量：6

Assigning Break Indices for Unrestricted Texts in Mandarin Text to Speech System

下载PDF

导出

摘要本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 % This paper uses a corpus with break indices based on C-TOBI. Applying supervised learning method, some useful attempts are made in the field of automatic break indices intonation. Three approaches, namely, the basic Markov model approach, the Markov model using word length approach, and the Markov model using word length combining transformation-based error-driven learning approach, are presented. After implementing these three approaches, open tests are made on a corpus of 3,000 sentences. The performances are getting better and the last approach produces the highest accuracy, 78.5%, and results in 14.5% decrease in error-cost taking the result of Markov model as baseline.

作者赵永贞刘挺王志伟陈惠鹏邵艳秋

机构地区哈尔滨工业大学计算机学院信息检索研究室哈尔滨工业大学计算机学院语音处理研究室

出处《中文信息学报》 CSCD 北大核心 2004年第5期48-55,共8页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目 (6 0 2 0 30 2 0 )

关键词计算机应用中文信息处理文语转换停顿指数马尔科夫模型基于转换的错误驱动的学习 computer application Chinese information processing text to speech break indices Markov model transformation-based error-driven learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1MinChu, Yao Qian. Locating boundaries for prosodic constituents in unrestricted Mandarin texts[J]. Computational Linguistics and Chinese Language Processing.2001,16(1): 1 - 22.
2ToBI Intonation Transcription Summary.http://www. cs. indiana. edu/- port/teach/306/tobi. summary. html.
3Yao Qian, Min Chu. Segmenting unrestricted Chinese text into prosodic words instead of lexical words[ A]. Proc. of ICASSP2001,Salt Lake City.
4Alan. W.Black, PaulTaylor. Assigning phrase breaks from part-of-speech sequences[J]. Computer Speech and Language. 1998, (12) :99 - 117.
5Pan-Mandarin ToBI System.http://people. cohums. ohio-state. edu/chan9/MToBI. htm.
6C-ToBI: Prosodic labeling system for Chinese.http://www. cass. net. cn/chinese/s18 - yys/yuyin/product/preduct _ 10. btm.
7E. Brill. A Simple Rule-based Part-of-speech Tagger[ A]. In: Proceedings of the Third Conference on Applied natural Language Processing[C]. ACL.Trento,Italy. 1992:152- 155.
8E. Brill. A Rule-based Approach to Prepositional Phrase Attachment Disambiguation[ A]. Proceedings of the 15th International Conference on Gomputational Linguistics[C]. 1994:1198 - 1204.
9E. Brill. Automatic Grammar Induction and Parsing Free Text: A Transformation-based Approach[ A]. In: Proceeding of the ARPA Human Language Technology Workshop[ C]. Princeton,N.J. 1993:259- 265.
10李智强.韵律研究和韵律标音[J].语言文字应用,1998(1):107-111. 被引量：3

二级参考文献41

1林茂灿,颜景助.北京话轻声的声学性质[J].方言,1980,2(3):166-178. 被引量：93
2颜景助,林茂灿.北京话三字组重音的声学表现[J].方言,1988,10(3):227-237. 被引量：35
3林茂灿.普通话语句中间断和语句韵律短语[J].当代语言学,2000,2(4):210-217. 被引量：31
4王洪君.汉语的韵律词与韵律短语[J].中国语文,2000(6):525-536. 被引量：101
5蔡莲红,魏华武,周俏峰.汉语文－语转换中的语言学处理[J].中文信息学报,1995,9(1):31-36. 被引量：4
6周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
7周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
8谌卫军.汉语文语转换系统中的韵律结构生成.清华大学工学博士学位选题报告[M].,1998..
9叶军.停顿的声学征兆.第三界全国语音学研讨会论文集[M].北京:-,1996.21-22.
10苏少波.试论说话中和朗读中的停顿[J].重庆教育学院学报,1999,13(1):54-58.

共引文献74

1季晓蓓.非英语专业学生使用美语高频问候语的实验语调分析[J].语言与文化研究,2020(2):38-41.
2王强.再论汉语并列结构的中心语[J].励耘语言学刊,2020(1):205-225.
3杨国文.汉语小句的尾调及末尾音节的声调变化[J].当代语言学,2021(1):87-96.
4王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
5夏耕.声调作为二语习得中的韵律意识和声学意识[J].语文学刊（外语教育与教学）,2013(7):137-140.
6裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
7李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
8王茂林.汉语自然话语韵律组块的优选论分析[J].暨南学报（哲学社会科学版）,2005,27(4):85-87. 被引量：6
9郭兰英,李林,任委军.汉语语音拼接技术的研究[J].计算机应用与软件,2005,22(11):49-50. 被引量：1
10杨军.ToBI韵律标注体系及其运用[J].现代外语,2005,28(4):360-366. 被引量：14

同被引文献101

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：19
2胡坦.藏语(拉萨话)声调研究[J].民族语文,1980(1):22-36. 被引量：47
3戴庆厦,刘菊黄.藏缅语族某些语言的音节搭配律[J].民族语文,1988(5):42-49. 被引量：8
4谭克让.藏语拉萨话声调分类和标法刍议[J].民族语文,1982(3):33-37. 被引量：10
5谭克让,孔江平.藏语拉萨话元音、韵母的长短及其与声调的关系[J].民族语文,1991(2):12-21. 被引量：26
6孔江平.藏语（拉萨话）声调感知研究[J].民族语文,1995(3):56-64. 被引量：42
7李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
8梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
9文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
10夏新松,肖建国.一种新的错误驱动学习方法在中文分词中的应用[J].计算机科学,2006,33(3):160-164. 被引量：9

引证文献6

1荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
2梁妍,朱耀庭.错误驱动学习在未登录词词性标注中的应用[J].计算机工程与设计,2008,29(6):1532-1534. 被引量：1
3陈晨,陈琪,李永宏,于洪志.藏语语音合成语料库的韵律标注规则设计[J].西北民族大学学报（自然科学版）,2010,31(1):24-28. 被引量：5
4李嘉,张朋柱,邓莎莎,原海英.基于多阶段转换学习的群体研讨文本言语行为分类[J].系统管理学报,2012,21(1):126-132. 被引量：2
5李嘉,张朋柱,李欣苗,刘璇.言语行为自动分类研究综述[J].系统管理学报,2013,22(4):526-537. 被引量：7
6李嘉,张朋柱,李欣苗.基于多阶段和分层方法的言语行为分类研究[J].信息系统学报,2013,7(1):100-113.

二级引证文献19

1郭淑妮,图雅,斯琴高娃.蒙古语语音合成语料库的设计及韵律标注规范的建立[J].电脑与电信,2012(3):22-25. 被引量：2
2曲珍,春燕.藏语语音合成中语料数据标注规则的设计[J].西藏大学学报（社会科学版）,2012,27(2):62-66. 被引量：4
3张元平,凌震华,戴礼荣,刘庆峰.一种改进的基于决策树的英文韵律短语边界预测方法[J].计算机应用研究,2012,29(8):2921-2925. 被引量：3
4陈小莹.藏语拉萨话语音合成语料库的研究与建立[J].科技信息,2013(9):13-14. 被引量：3
5李嘉,张朋柱,李欣苗,刘璇.言语行为自动分类研究综述[J].系统管理学报,2013,22(4):526-537. 被引量：7
6牛秀萍,马建芬.HMM词性标注中高频生词的处理[J].计算机应用与软件,2014,31(2):86-88.
7许有胜.连动结构的自动识别和分析[J].巢湖学院学报,2013,15(4):108-115. 被引量：3
8钱揖丽,冯志茹.基于语块和条件随机场(CRFs)的韵律短语识别[J].中文信息学报,2014,28(5):32-38. 被引量：6
9钱揖丽,冯志茹.利用AdaBoost-SVM集成算法和语块信息的韵律短语识别[J].计算机工程与科学,2015,37(12):2324-2330. 被引量：2
10孙亚,刘思瑶,陈帅.国外言语行为自动标注研究进展[J].北京科技大学学报（社会科学版）,2017,33(5):12-18. 被引量：1

1刘方舟,周游.用决策树指导TBL进行多音字消歧[J].计算机工程与应用,2011,47(12):137-140. 被引量：1
2张大军,陈肇雄,黄河燕.汉语文语转换系统地址映射算法的设计与实现[J].软件学报,2002,13(1):105-110. 被引量：3
3吴震,万千,陈小平.汉语文语转换系统中基于小波神经网络的韵律信息合成[J].自动化学报,2002,28(3):466-469.
4陈晨,陈琪,李永宏,于洪志.藏语语音合成语料库的韵律标注规则设计[J].西北民族大学学报（自然科学版）,2010,31(1):24-28. 被引量：5
5谌卫军,李建民,林福宗,张钹.汉语文语转换系统(TTS)[J].计算机工程与应用,2000,36(9):1-3. 被引量：8
6儿童专用——Samsung S3030 Tobi[J].数码,2009(1):43-43.
7常宝宝,刘颖,刘群.汉英机器翻译中的冠词处理研究[J].中文信息学报,1998,12(3):8-14. 被引量：6
8杨乐.全球速递[J].中国残疾人,2014(9):23-23.
9谌卫军,林福宗,李建民,张钹.基于扩张矩阵理论的汉语韵律短语分析[J].计算机学报,2003,26(1):26-31. 被引量：2
10张岳新,许流发.汉语文语转换系统NLG-TTS的设计与实现[J].南京理工大学学报,2000,24(z1):42-47.

中文信息学报

2004年第5期

浏览历史

内容加载中请稍等...

汉语文语转换系统中停顿指数的自动标注被引量：6

参考文献17

二级参考文献41

共引文献74

同被引文献101

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

汉语文语转换系统中停顿指数的自动标注 被引量：6

参考文献17

二级参考文献41

共引文献74

同被引文献101

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

汉语文语转换系统中停顿指数的自动标注被引量：6