期刊文献+

基于语料库的语言建模 被引量:7

Language modeling based on corpus
原文传递
导出
摘要 语料库语言学的发展的核心问题是语言模型的建立问题。常用的语言模型可以概括为三类:(1)n元模型(及隐马尔可夫模型);(2)基于分布理论的模型;(3)基于规则的模型。基于语料库的建模过程就是对语言模型的参数进行求解的过程,也可以认为是一个机器学习的过程。它可分为两大类别:(1)有指导学习;(2)无指导学习。本文着重论述了近年发展的热点——无指导学习的各种技术和影响参数可信度的数据稀疏问题及其解决办法。 The central problem in corpus linguistics is language modeling. The three major types of language model are: a) The n gram model and the HMM model; b) The distribution based model; c) The rule based model. The procedure of corpus based language modeling is mainly to estimate the parameters of that model. The parameters of the language model can be estimated through the supervised learning or unsupervised learning. The latter is becoming the highlight of research because it needs only the raw corpus and very little human a priori knowledge. Some techniques of unsupervised parameter estimating have been elaborated. Also, the major cause of the incredibility of estimated parameters sparse data problem have been elaborated .
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1997年第3期71-76,共6页 Journal of Tsinghua University(Science and Technology)
基金 国家自然科学基金
关键词 语言模型 语料库语言学 隐马氏模型 计算语言学 language model parameter estimating data sparseness supervised learning unsupervised learning
  • 相关文献

参考文献2

  • 1郭志立,硕士学位论文,1996年
  • 2白栓塞,机器翻译研究进展,1992年,408页

同被引文献59

引证文献7

二级引证文献42

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部