期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

提高韵律短语正确切分方法的研究

Research on the Approach of Improving the Correct Segmentation of Prosodic Phrase

下载PDF

导出

摘要汉语自动词性标注和韵律短语切分都是汉语文语转换（Text-to-Speech）系统的重要组成部分。在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息，对文本中的韵律短语切分点进行自动预测时，语素'g'这种词性就过于模糊，导致韵律短语切分点预测得不合理。该文提出了一种修改词类标注集，去掉语素'g'这种词性的方法。该方法在进行词性标注时，对实语素恰当地标注出在句中的词性，以便提高韵律短语的正确切分。应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明，词性标注正确率分别可达96.67%和92.60%。并采用修改过的词类标注集，对1000句的文本进行了韵律短语切分点的预测，召回率在66.21％左右，正确率达到了75.79％。 Both the Chinese part-of-speech automatic tagging and prosodic phrase segmentation are important modulars in a Chinese text-to-speech system. When predicting phrase breaks using the boundary pattern and boundary distribution probabilities derived from hand-annotated corpus, the authors find that the POS tag 'g' is too ambiguous, which leads to the illogicality of the prediction of phrase breaks. This paper proposes an approach of modifying the POS tag set, so the POS tag 'g' will never be in this set. When tagging part-of-speech for Chinese, in order to improve the correct segmentation of prosodic phrase, the authors annotate morphemes with appropriate POS tags. According to this method train it on a close corpus of 100,000 characters and then test on an open test set of 50,000 characters. The primary experiment proves that the overall accuracy for POS tagging of close corpus and open test set is 96.67% and 92.60% respectively. The authors also test the prediction of phrase breaks on about 1000 sentences using the modified POS tag set, the recalling rate is around 66.21% , the correct rate is about 75.79%.

作者吴晓慧柴佩琪

机构地区同济大学计算机科学与工程系

出处《计算机工程》 CAS CSCD 北大核心 2003年第2期151-152,160,共3页 Computer Engineering

关键词韵律短语切分方法词性标注词类标注集语素汉语信息处理汉语文语转换系统 Part-of-speech tagging POS tag set Morphemes Prosodic phrase

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35

二级参考文献16

1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
2俞士汶，1994年
3周强，计算机研究与运用，1993年
4白栓虎，1992年
5刘开瑛，1992年
6俞士汶，1991年
7减怀德，形容词用法词典，1991年
8孟琮，动词用法词典，1985年
9朱德熙，语法答问，1985年
10周强，计算机研究与运用，1993年

共引文献75

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
5詹卫东.80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J].当代语言学,2000,2(2):63-73. 被引量：13
6梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
7王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
8李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
9才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
10才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5

1牛正雨,柴佩琪.基于边界点词性特征统计的韵律短语切分[J].中文信息学报,2001,15(5):19-25. 被引量：13
2王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
3支天云,张仰森.基于BP网络的汉语文本词类标注方法[J].山西大学学报（自然科学版）,2001,24(1):33-36. 被引量：3
4钱揖丽,荀恩东.基于分类回归树CART的汉语韵律短语边界识别[J].计算机工程与应用,2008,44(6):169-171. 被引量：3
5杨志强,柴佩琪,牛正雨.汉语韵律短语切分研究[J].计算机工程,2002,28(2):131-133.
6应宏,蔡莲红.基于结构助词驱动的韵律短语界定的研究[J].中文信息学报,1999,13(6):41-46. 被引量：18
7韩东妹,林民.自动词性标注概述[J].内蒙古科技与经济,2006(01S):132-133.
8华却才让,才让加.基于班智达藏文查询接口及信息抽取研究[J].微计算机信息,2010,26(18):208-209. 被引量：1
9荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
10吴晓,种玉珍,倪红波,王海鹏.一种CBR与RBR相结合的智能家庭推理系统[J].计算机应用研究,2009,26(3):977-979. 被引量：3

计算机工程

2003年第2期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部