期刊文献+

实际场景语料和FSN语料的平衡方法 被引量:1

Balanced real scene and FSN corpus
原文传递
导出
摘要 为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2种:一种是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一种是用有限状态网络(finite statenetwork,FSN)句法规则方法生成的语料,称为FSN语料。该文重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为基础,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器关键词检出率从55%提高到77%,音节错误率从39%降到30%。 The language model is a very important component of a continuous speech recognition system;however,a training corpus for the language model cannot be easily retrieved from the various corpus resources,such as the real scene corpus and FSN(finite state network) corpus.This paper describes an effective method for retrieving a training corpus from the real scene corpus and the FSN corpus by comparing the probabilities of keywords in both corpuses.This method balances the two corpuses to interpret content with ...
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第S1期730-734,共5页 Journal of Tsinghua University(Science and Technology)
关键词 语料扩展 语言模型 有限状态网络(finitestatenetwork) 关键词概率 corpus expansion language model FSN(finite state network) key words probabilities
  • 相关文献

参考文献5

  • 1Villasenor-Pineda L,,Montes-y-Gomez M,Perez-Coutino M,et al.A corpus balancing method for language modelconstruction[].Computational Linguistics and IntelligentText Processing:th International Conference Cycling.2003
  • 2WU Zhiyong,MENG Helen,NING Hui,et al.Acorpus-based approach for cooperative response generation ina dialog system[].ISCSLP.2006
  • 3Volk M.Exploiting the WWW as a corpus to resolve PPattachment ambiguities[].Proceedings of CorpusLinguistics.2001
  • 4Kilgarriff A,and Grefenstette G.Introduction to the Special Issue on the Web as Corpus[].Computational Linguistics.2003
  • 5Biber D.Using register-diversified corpora for general language studies[].Computational Linguistics.1993

同被引文献4

  • 1Brown PF, deSouza PV, Mercer RL, et al. Class-Based n-gram Models of Natural Language. Computational Linguistics, 1992,18(4):467-479.
  • 2赵石顽,夏莹,马少平,王昱,苏中.基于统计的中文词分类.毛剑琴.第三届全球智能控制与自动化大会论文集.合肥:中国科学技术大学出版社.2000:2753—2756.
  • 3陈振标,徐波.限定领域的语言模型.第七届全国人机语音通讯学术会议.厦门.2003.27-30.
  • 4徐波,孙甲松,李爱军,徐明星,黄泰翼,鲍怀翘,尹波,吴志刚.中文语音识别系统通用技术规范.中华人民共和国国家标准一匕京:中国标准出版社.2007.

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部