面向韵律层边界自动划分的维吾尔语词性自动标注技术研究被引量：1

ON TECHNOLOGY OF AUTOMATICALLY TAGGING POS OF UYGHUR SENTENCES ORIENTED TOWARD AUTO-DIVISION OF PROSODIC LAYER BOUNDARY

下载PDF

导出

摘要以语音合成系统文本分析模块中的韵律边界自动划分技术为背景,重点研究了维吾尔语词性自动标注技术:首先根据应用领域的特点确定词性的种类及其判定规则,筛选文本句子并对其进行手动词性标注,然后通过统计获得了词性概率表和词性对照表,最后采用基于HMM模型的二元文法来实现维吾尔语词性自动标注。在实验中,为了验证算法的有效性,筛选了10000条句子作为训练样本,另选用500条句子作为测试样本。实验结果表明,该研究思路的可行性和有效性。 An automatic tagging method for POS（part of speech） of Uyghur sentences has been elaborately studied in this paper by taking as the background the automatic division technology on prosodic levels boundary in text analysis module of speech synthesis system.First,according to the characteristics of specific application field,the categories of the POS and their decision rules are confirmed,candidate text sentences are screened out and are manually tagged,and then the probability tables and reference tables of POS are elicited from statistics,at last,the automatic POS tagging on Uyghur is implemented through adopting bigram model on the basis of HMM model.In order to approve the validity of the method presented in this paper,large scale text corpus over 10,000 sentences are selected for the training sample and extra 500 sentences are used as the testing sample in the experiment.Test results show that the study conception used in this paper is feasible and valid.

作者努尔比娅.塔依尔地里木拉提.吐尔逊艾斯卡尔.肉孜

机构地区新疆大学信息科学与工程学院新疆大学数学与系统科学学院

出处《计算机应用与软件》 CSCD 2011年第8期165-168,共4页 Computer Applications and Software

基金新疆维吾尔自治区自然科学基金项目(200821125) 新疆大学自然科学基金校院联合项目(XY080101 XY080127)

关键词维吾尔语韵律层词性标注语音合成文本分析 Uyghur Prosodic layer POS tagging Speech synthesis Text analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1
2赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测[J].中文信息学报,2002,16(5):30-37. 被引量：25
3吴志勇,蔡莲红.语音合成中的韵律关联模型[J].中文信息学报,2004,18(2):44-50. 被引量：8
4语音合成系统的关键技术与应用实例[J].杭州科技,2000,21(2):19-21. 被引量：3

二级参考文献16

1张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
2初敏.韵律研究与合成语音的自然度[A].第五届全国现代语音学学术会议.新世纪的现代语音学[C].北京: 清华大学出版社,2001.295-301.
3吴志勇蔡莲红陶建华.基于汉语韵律参数的语音基元选取[A]..第六届全国人机语音通讯学术会议[C].深圳,2001.199-202.
4G.Fant.言语产生中的相互作用现象[M].,1987..
5俞士汶主编,现代汉语语料库加工-词语切分与词性标注规范与手册[J].北京大学计算语言学研究所,1999年
6海米提. 现代维吾尔语语法(词汇学)[M].北京:民族出版社.1987
7汉语语料库词性标注规范[S],清华大学计算机系智能技术与系统国家重点实验室技术资料,1998.10
8应宏,蔡莲红.基于结构助词驱动的韵律短语界定的研究[J].中文信息学报,1999,13(6):41-46. 被引量：18
9俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30
10陶建华,蔡莲红,赵世霞,吴志勇.汉语文语转换系统中可训练韵律模型的研究[J].声学学报,2001,26(1):67-72. 被引量：14

共引文献31

1夏耕.声调作为二语习得中的韵律意识和声学意识[J].语文学刊（外语教育与教学）,2013(7):137-140.
2井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390. 被引量：13
3李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
4吴志勇,蔡莲红,蔡锐.语音合成中基于听辨指导的权重训练算法[J].清华大学学报（自然科学版）,2005,45(1):52-56. 被引量：1
5赵博,蔡莲红.合成语音自然度客观测度[J].计算机工程与应用,2005,41(7):32-33. 被引量：2
6郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
7荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
8张传禄.工作也要“普遍怀疑”[J].出版参考（新阅读）,2006(7):45-45.
9钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
10张鹏,王琳,刘胜.基于韵律匹配代价和韵律拼接代价的汉语语音合成[J].哈尔滨工业大学学报,2006,38(11):2006-2008. 被引量：1

同被引文献4

1吐尔根·依不拉音,阿里甫·库尔班.基于词典的现代维吾尔语词性自动标注系统的研究[C]//中文输入技术发展历程及输入方案汇编(论文集),2006,11.
2阿里甫.库尔班,吾买尔江.库尔班,吐尔根.伊布拉音.面向信息处理的维吾尔语词语分类体系及标记研究(Ⅱ)[J].新疆大学学报（自然科学版）,2010,27(1):106-112. 被引量：7
3哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
4尼加提·纳吉米,买合木提·买买提,吐尔根·依布拉音.基于N元模型的维吾尔语词性标注实验研究[J].计算机工程与应用,2012,48(25):137-140. 被引量：2

引证文献1

1王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8

二级引证文献8

1帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
2张海军.维吾尔语短语自动抽取研究进展[J].计算机科学与探索,2015,9(12):1420-1429. 被引量：3
3袁蕾.三十年来维吾尔语生成语法研究综述[J].贵州民族研究,2016,37(11):217-220.
4李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
5吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
6帕提曼·艾克木.浅谈现代维吾尔语的歧义短语[J].当代教研论丛,2017,0(3):24-24.
7依不拉音.吾斯曼,张绍武,于凯.互联网上的维语多文转换机制的设计与实现[J].计算机工程与应用,2018,54(19):114-121. 被引量：1
8赵一江,余超,于清.适用于少数民族的Unity3d虚拟仿真系统关键技术研究[J].现代电子技术,2023,46(23):133-136.

1陈顺强,马嘿玛伙.基于隐马尔科夫模型的彝文分词系统设计与开发[J].西南民族大学学报（自然科学版）,2012,38(1):146-149. 被引量：6
2羊毛卓玛.藏文词性自动标注中歧义问题处理方法研究[J].计算机工程与应用,2013,49(24):135-137. 被引量：1
3姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,古力米热.依玛木,艾斯卡尔.艾木都拉.结合分层条件随机场与标点符号的维吾尔语韵律边界预测[J].计算机工程,2015,41(11):299-302. 被引量：4
4黄焱,孙剑,谷雨.图像多标签学习综述[J].云南民族大学学报（自然科学版）,2011,20(6):490-496. 被引量：1
5刘健,郑家恒.基于实例的词性标注方法研究[J].山西气象,2001(2):45-48.
6羊毛卓么,扎西加.藏文词性自动标注方法的比较[J].信息通信,2013,26(2):270-271.
7才华.隐马尔科夫模型在词性标注中的应用[J].西藏大学学报（社会科学版）,2012,27(5):77-81.
8方刚.Internet随想曲[J].中国经济和信息化,1997,0(17):12-13.
9韩中元,韩咏,马威,崔硕.中文信息检索中二元文法索引策略的改进[J].微计算机信息,2010,26(15):33-34. 被引量：2
10宋木生,徐宝富,陆敏恂,奚鹰.基于ObjectARX2004的表面粗糙度自动标注[J].中国工程机械学报,2007,5(2):186-192. 被引量：1

计算机应用与软件

2011年第8期

浏览历史

内容加载中请稍等...

面向韵律层边界自动划分的维吾尔语词性自动标注技术研究被引量：1

参考文献4

二级参考文献16

共引文献31

同被引文献4

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向韵律层边界自动划分的维吾尔语词性自动标注技术研究 被引量：1

参考文献4

二级参考文献16

共引文献31

同被引文献4

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向韵律层边界自动划分的维吾尔语词性自动标注技术研究被引量：1