中文语音合成中的文本正则化研究被引量：12

Text Normalization in Chinese Text-to-Speech System

下载PDF

导出

摘要中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。该工作的难点:一是正则化对象——非汉字串形式复杂多样,难于归纳;二是非汉字串有歧义,需要消歧处理。文章引入非标准词的概念对非汉字串进行有效归类,提出非标准词的识别、消歧及标准词生成的三层正则化模型。在非标准词的消歧中引入机器学习的方法,避免了复杂规则的书写。实验表明,此方法取得了很好的效果,并具有良好的推广性,开放测试的正确率达到98.64%。 Chinese text normalization is the process of transforming non-Chinese character strings into their corresponding Chinese character strings to determine their pronunciations. The difficulties of this work mainly lie in two aspects： too many non-Chinese character strings of various formats and their high degree of ambiguities. This paper develops an effective taxonomy of non-Chinese character strings with the concept of Non-Standard Words （NSWs）. And then a three-layer normalization model is proposed, including NSWs detection, NSWs disambiguation and standard words generation. In the NSWs disambiguation stage, a machine learning method is employed to overcome shortcomings of rule-based method. Experiment results show that this approach achieves a high performance and adapts well to new domains. The accuracy of open test is 98.64%.

作者贾玉祥黄德智刘武俞士汶

机构地区北京大学计算语言学研究所法国电信北京研发中心

出处《中文信息学报》 CSCD 北大核心 2008年第5期45-50,55,共7页 Journal of Chinese Information Processing

基金国家973课题资助项目(2004CB318102)

关键词计算机应用中文信息处理文本正则化语音合成最大熵模型 computer application Chinese information processing text normalization text-to-speech maximum entropy model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1Richard Sproat, Alan Black, Stanley Chen, et al.Normalization of Non-Standard Words [J]. Computer Speech and Language, 2001, 15(3):287-333.
2Jan van Santen, Richard Sproat, Joseph Olive, et al. Progress in Speech Synthesis [ M]. New York: Springer, 1996.
3Andrew Breen, Barry Eggleton, Peter Dion, et al. Refocusing on the Text Normalization Process in Text-to- Speech Systems [C]//Proc. ICSLP 2002. 2002: 153- 156.
4K. Panchapagesan, Partha Pratim Talukdar, N. Sridhar Krishna, et al. Hindi Text Normalization [C]//Proc. KBCS2004. 2004: 19-22.
5M. H. Moattar, M. M. Homayounpour, D. Zabihzadeh. Persian Text Normalization Using Classification Tree and Support Vector Machine [C]//Proc. ICTTA 2006. 2006: 1308-1311.
6Virongrong Tesprasit, Paisarn Charoenpornsawat, Virach Sortlertlamvanich. A Context-Sensitive Homograph Disambiguation in Thai Text-to-Speech Synthesis [C]//Proc. HLT-NAACL 2003. 2003: 103-105.
7Chilin Shih, Richard Sproat. Issues in Text-to-Speech Conversion for Mandarin [J], Computational Linguis- tics and Chinese Language Processing, 1996, 1 (1): 37-86.
8Min Chu, Peng Hu, Yong Zhao, et al. Microsoft Mulan--a bilingual TTS system [C]//Proc. ICASSP 2003. 2003, 264-267.
9蔡莲红,魏华武,周俏峰.汉语文－语转换中的语言学处理[J].中文信息学报,1995,9(1):31-36. 被引量：4
10陈志刚,胡国平,王熙法.中文语音合成系统中的文本标准化方法[J].中文信息学报,2003,17(4):45-51. 被引量：8

二级参考文献11

1朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
2段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
3Richard Sproat. Multilingual text analysis for text- to-speech synthesis [C], ICSLP'96.
4Richard Sproat, Alan Black, Stanley Chen, Shankar Kumar, Mari Ostendorf, Charistopher Richards. Normalization of Non- Standard Words [C]: WS '99 Final Report (1999).
5Wu Xiaoru. Special Text Processing Based External Descriptor Rule [ C], ICSLP'2000.
6Andrew Breen,Barry Eggleton.Refocussing on the text normalization process in Text-to-speech Systems[C]. ICSLP'2002.
7Mehryar Mohri,Richard Sproat.A Efficient Compiler for Weighted Rewrite Rules [C] .Meeting of the Association for Computational Linguistics, 1996.
8魏华武，计算机世界月刊，1992年，9卷
9刘开瑛，自然语言处理，1991年
10张志公，现代汉语，1985年

共引文献40

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
3俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
4牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1
5冯哲,孙吉贵,张长胜,王岩.汉语语音合成的研究进展[J].吉林大学学报（信息科学版）,2007,25(2):198-206. 被引量：7
6吴江宁,朱国华.基于改进线图分析算法的浅层汉语句法分析器的设计与实现[J].计算机应用研究,2007,24(9):164-167. 被引量：4
7刘耀,穗志方,周扬,王振国.中医药本体概念描述体系的自动构建研究[J].现代图书情报技术,2008(5):21-26. 被引量：5
8白振田,侯汉清.基于词典约简及多分类算法的文本分类系统的设计与开发[J].情报学报,2008,27(3):337-343. 被引量：3
9刘耀,段慧明,王惠临,周扬,王振国,李宏展.中医药古文献语料库设计与开发研究[J].中文信息学报,2008,22(4):24-30. 被引量：9
10牛洪梅,加米拉.吾守尔,吐尔根.依布拉音.现代维吾尔语的词性标注校对技术研究[J].伊犁师范学院学报（自然科学版）,2007,1(1):43-46. 被引量：2

同被引文献156

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
3沈炯.汉语语势重音的音理（简要报告）[J].语文研究,1994(3):10-15. 被引量：44
4贾珈,蔡莲红,李明,张帅.汉语普通话与沈阳方言转换的研究[J].清华大学学报（自然科学版）,2009(S1):1309-1315. 被引量：7
5CHU Min and LU Shinan(Institute of Acoustics, Academia Sinica, Beijing 100080).A text-to-speech system with high intelligibility and naturalness for Chinese[J].Chinese Journal of Acoustics,1996,15(1):81-90. 被引量：5
6李禹材,左友东,郑秀清,王玲.基于Speech SDK的语音控制应用程序的设计与实现[J].计算机应用,2004,24(6):114-116. 被引量：40
7戚晓杰.谈网络语言的谐音表义[J].修辞学习,2002(3):21-21. 被引量：30
8邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
9王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
10张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9

引证文献12

1周开来.中文语音合成系统过程分析及实现初探[J].现代计算机,2010,16(4):73-77.
2周开来.基于语音数据库的文语转换系统过程分析[J].计算机时代,2010(7):7-9. 被引量：1
3高璐,陈琪,李永宏,于洪志.藏语语音合成中文本分析的若干问题研究[J].西北民族大学学报（自然科学版）,2010,31(2):27-32. 被引量：5
4徐远纯,张海锋.中文语音合成中文档结构和文本规范化研究[J].福建电脑,2011,27(1):52-53.
5黄华,仲元昌,胡江坤,王靖欣.中文语音合成系统语音速率调节方法[J].西南大学学报（自然科学版）,2011,33(3):153-157. 被引量：6
6祝诗平,黄华,唐超,林跃跃.基于TTS的实验自主学习系统的实现[J].西南师范大学学报（自然科学版）,2012,37(1):88-91. 被引量：1
7张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
8马立东.英语语音合成系统超前端文本分析知识库的构建[J].电脑与信息技术,2013,21(5):47-51. 被引量：1
9李静,陈安.TTS技术在气象预警中的应用[J].气象与环境科学,2014,37(2):107-111. 被引量：5
10郭威彤,杨鸿武,宋继华,顾香,甘振业.面向方言语音合成的文本分析研究[J].计算机工程,2015,41(9):184-189. 被引量：3

二级引证文献31

1祝诗平,黄华,唐超,林跃跃.基于TTS的实验自主学习系统的实现[J].西南师范大学学报（自然科学版）,2012,37(1):88-91. 被引量：1
2黄华,仲元昌.TTS在智能公交报站系统中的应用[J].自动化仪表,2012,33(8):24-26. 被引量：11
3李静,陈安.TTS技术在气象预警中的应用[J].气象与环境科学,2014,37(2):107-111. 被引量：5
4木合亚提·尼亚孜别克,古力沙吾利·塔里甫,古丽拉·阿东别克.哈萨克语NP和VP结构的歧义类型与消除策略研究[J].西南师范大学学报（自然科学版）,2014,39(7):41-46.
5杜家利,于屏方.花园幽径现象理解折返性的数据结构分析[J].中文信息学报,2015,29(1):28-37. 被引量：2
6刘碧贞,黄华,祝诗平,向必万.基于北斗/GPS的谷物收割机作业综合管理系统[J].农业工程学报,2015,31(10):204-210. 被引量：26
7郭威彤,杨鸿武,宋继华,顾香,甘振业.面向方言语音合成的文本分析研究[J].计算机工程,2015,41(9):184-189. 被引量：3
8艾金勇,陈小莹,刘泽国.藏语自动标音系统的设计与实现[J].智能计算机与应用,2015,5(6):33-35.
9范玉鑫,陈晖,吴天亭,马云飞.虚拟化技术在气象信息网络中的应用[J].气象灾害防御,2016,23(1):44-45. 被引量：4
10佘陈凤,余远波,陈静娴,曹友,陈泽游.多语种医嘱播报系统设计与实现[J].软件工程,2016,19(5):47-50. 被引量：3

1刘均.借助Excel XP让Microsoft Agent说中文[J].计算机应用,2003,23(z2):329-329. 被引量：2
2温立新.在AutoCAD中实现汉字输入和编辑的方法[J].军工勘察,1996(2):59-61.
3李永平.无存贮音码汉字字符串的音码反查实现技术[J].中文信息学报,2009,23(1):106-111. 被引量：1
4乔梁,陈欣,宋文强.NET平台下中文语音合成技术的研究与实践[J].电脑知识与技术,2010(01Z):337-338. 被引量：3
5我国智能语音相关标准正在研制[J].信息技术与标准化,2014(7):9-9.
6中国“有声电子邮件”研发成功[J].计算机信息,2001(12):12-13.
7周兴旺.正则表达式中的与或非解析[J].计算机光盘软件与应用,2014,17(18):63-63.
8杜坤,刘怀亮,王帮金.基于语义相关度的中文文本聚类方法研究[J].情报理论与实践,2016,39(2):129-133. 被引量：9
9徐远纯,张海锋.中文语音合成中文档结构和文本规范化研究[J].福建电脑,2011,27(1):52-53.
10邹旭楷,王素琴.一种快速(汉字)字符串检索技术[J].小型微型计算机系统,1993,14(11):49-53. 被引量：3

中文信息学报

2008年第5期

浏览历史

内容加载中请稍等...

中文语音合成中的文本正则化研究被引量：12

参考文献15

二级参考文献11

共引文献40

同被引文献156

引证文献12

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

中文语音合成中的文本正则化研究 被引量：12

参考文献15

二级参考文献11

共引文献40

同被引文献156

引证文献12

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

中文语音合成中的文本正则化研究被引量：12