期刊文献+

提高韵律短语正确切分方法的研究

Research on the Approach of Improving the Correct Segmentation of Prosodic Phrase
下载PDF
导出
摘要 汉语自动词性标注和韵律短语切分都是汉语文语转换(Text-to-Speech)系统的重要组成部分。在用从人工标注的语料库中得到韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测时,语素'g'这种词性就过于模糊,导致韵律短语切分点预测得不合理。该文提出了一种修改词类标注集,去掉语素'g'这种词性的方法。该方法在进行词性标注时,对实语素恰当地标注出在句中的词性,以便提高韵律短语的正确切分。应用此方法对10万词的训练集和5万词的测试集分别进行封闭和开放测试表明,词性标注正确率分别可达96.67%和92.60%。并采用修改过的词类标注集,对1000句的文本进行了韵律短语切分点的预测,召回率在66.21%左右,正确率达到了75.79%。 Both the Chinese part-of-speech automatic tagging and prosodic phrase segmentation are important modulars in a Chinese text-to-speech system. When predicting phrase breaks using the boundary pattern and boundary distribution probabilities derived from hand-annotated corpus, the authors find that the POS tag 'g' is too ambiguous, which leads to the illogicality of the prediction of phrase breaks. This paper proposes an approach of modifying the POS tag set, so the POS tag 'g' will never be in this set. When tagging part-of-speech for Chinese, in order to improve the correct segmentation of prosodic phrase, the authors annotate morphemes with appropriate POS tags. According to this method train it on a close corpus of 100,000 characters and then test on an open test set of 50,000 characters. The primary experiment proves that the overall accuracy for POS tagging of close corpus and open test set is 96.67% and 92.60% respectively. The authors also test the prediction of phrase breaks on about 1000 sentences using the modified POS tag set, the recalling rate is around 66.21% , the correct rate is about 75.79%.
出处 《计算机工程》 CAS CSCD 北大核心 2003年第2期151-152,160,共3页 Computer Engineering
关键词 韵律短语 切分方法 词性标注 词类标注集 语素 汉语信息处理 汉语文语转换系统 Part-of-speech tagging POS tag set Morphemes Prosodic phrase
  • 相关文献

参考文献2

二级参考文献16

  • 1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量:39
  • 2俞士汶,1994年
  • 3周强,计算机研究与运用,1993年
  • 4白栓虎,1992年
  • 5刘开瑛,1992年
  • 6俞士汶,1991年
  • 7减怀德,形容词用法词典,1991年
  • 8孟琮,动词用法词典,1985年
  • 9朱德熙,语法答问,1985年
  • 10周强,计算机研究与运用,1993年

共引文献75

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部