基于语料库的语言建模被引量：7

Language modeling based on corpus

导出

摘要语料库语言学的发展的核心问题是语言模型的建立问题。常用的语言模型可以概括为三类：（１）ｎ元模型（及隐马尔可夫模型）；（２）基于分布理论的模型；（３）基于规则的模型。基于语料库的建模过程就是对语言模型的参数进行求解的过程，也可以认为是一个机器学习的过程。它可分为两大类别：（１）有指导学习；（２）无指导学习。本文着重论述了近年发展的热点——无指导学习的各种技术和影响参数可信度的数据稀疏问题及其解决办法。 The central problem in corpus linguistics is language modeling. The three major types of language model are: a) The n gram model and the HMM model; b) The distribution based model; c) The rule based model. The procedure of corpus based language modeling is mainly to estimate the parameters of that model. The parameters of the language model can be estimated through the supervised learning or unsupervised learning. The latter is becoming the highlight of research because it needs only the raw corpus and very little human a priori knowledge. Some techniques of unsupervised parameter estimating have been elaborated. Also, the major cause of the incredibility of estimated parameters sparse data problem have been elaborated .

作者许伟苑春法黄昌宁

机构地区清华大学计算机科学与技术系智能技术与系统国家重点实验室

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 1997年第3期71-76,共6页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金

关键词语言模型语料库语言学隐马氏模型计算语言学 language model parameter estimating data sparseness supervised learning unsupervised learning

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郭志立，硕士学位论文，1996年
2白栓塞，机器翻译研究进展，1992年，408页

同被引文献59

1林铮.英文易读性的测定[J].外语教学与研究,1995,27(4):38-42. 被引量：23
2李绍山.易读性研究概述[J].解放军外国语学院学报,2000,23(4):1-5. 被引量：96
3黄昌宁,张小凤.自然语言处理技术的三个里程碑[J].外语教学与研究,2002,34(3):180-187. 被引量：20
4王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
5姜艺,潘燕华,葛世伦.一种基于本体的企业建模策略[J].江苏科技大学学报（自然科学版）,2006,20(3):85-90. 被引量：4
6郑鑫,秦建军,陈汉辉,李伟宏.基于可拓学的自然语言处理与系统建模研究[J].哈尔滨工业大学学报,2006,38(7):1209-1212. 被引量：5
7夏莹,常新功,马少平,朱小燕,金奕江.利用上下文相关信息的汉字文本识别[J].中文信息学报,1996,10(1):23-30. 被引量：7
8孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
9刘小虎,吴葳,李生,赵铁军,蔡萌,鞠英杰.基于词典和统计的语料库词汇级对齐算法[J].情报学报,1997,16(1):21-27. 被引量：8
10俞士汶.关于受限的规则识语设想[A]..语言现代化论丛[C].济南:山东教育出版社,1995.193-205.

引证文献7

1朱伟丽,韩宇,肖晓旦,陈先来.医学关键词与叙词对照表自动构建研究[J].现代图书情报技术,2006(8):51-54. 被引量：8
2何祖军,胡静.自然语言的规范与转化——基于嵌入式系统的描述[J].计算机与现代化,2008(11):42-45.
3邢富坤,程东元.基于统计语言模型的英语易读性研究[J].解放军外国语学院学报,2010,33(6):19-24. 被引量：12
4张文星.语料库与作文自动评分的接口研究[J].牡丹江师范学院学报（社会科学版）,2013(4):138-140. 被引量：1
5李志勇,高峰.基于知网的甲骨文可拓模型建模技术[J].计算机与现代化,2015(5):30-34. 被引量：3
6张仰森,徐波,曹元大.自然语言处理中的语言模型及其比较研究[J].广西师范大学学报（自然科学版）,2003,21(A01):16-24. 被引量：11
7赖朝安,孙延明,齐德昱,郑时雄.基于自然语言理解的专家系统研究[J].计算机工程,2003,29(1):20-22. 被引量：7

二级引证文献42

1努尔比亚.吐拉甫,于洪志.基于短语的数字、时间维汉翻译规则建设[J].生物技术世界,2012(2):92-93.
2钱作勤,周祥军.内燃机拉缸故障诊断型专家系统[J].武汉理工大学学报（交通科学与工程版）,2004,28(5):634-636. 被引量：7
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
4窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
5肖乐明,张素明.专家系统在船舶电站及自动化装置故障诊断中的应用[J].上海海事大学学报,2005,26(4):33-37. 被引量：1
6马晖男,吴江宁,潘东华.信息检索中修饰语作用的研究[J].情报学报,2006,25(3):306-311. 被引量：1
7陈周娟,续海峰,钮王杰.基于静态知识库的领域内自然语言理解的语义处理研究[J].机床与液压,2007,35(7):37-39. 被引量：4
8陈周娟,曲尔光.基于领域的名词短语语义分析及其实现[J].现代电子技术,2008,31(5):181-182.
9马晖男,吴江宁,潘东华.一种修正的向量空间模型在信息检索中的应用[J].哈尔滨工业大学学报,2008,40(4):666-669. 被引量：6
10那日萨,刘影,李媛.消费者网络评论的情感模糊计算与产品推荐研究[J].广西师范大学学报（自然科学版）,2010,28(1):143-146. 被引量：6

1邓伟,赵荣椿.隐马尔柯夫模型的一种面向对象的程序实现框架[J].西北工业大学学报,1999,17(4):550-554. 被引量：1
2陈旭阳,李兵,张道鸿.一种改进的Fuzzy-HMMS算法及其收敛性[J].模糊系统与数学,2006,20(1):154-158.
3曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
4张杰,赵峰.流数据概念漂移的检测算法[J].控制与决策,2013,28(1):29-35. 被引量：16
5朱成文,李兵,胡奎,庞魁.HMM隐状态的粒子滤波估计[J].计算机工程与应用,2012,48(8):161-163. 被引量：2
6杜璞.中文信息处理的主流技术[J].科技创新导报,2009,6(24):172-172. 被引量：1
7曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
8乔海晔,肖南峰.基于视觉的文字识别系统的设计与实现[J].交通与计算机,2005,23(5):97-101. 被引量：5
9朱成文,李兵,胡奎.HMM参数估计的Gibbs抽样算法[J].计算机工程与应用,2012,48(18):57-60. 被引量：1
10马明,张元,王建宇,黄志同.语音识别中的动态时间规正和隐马尔可夫模型等价性研究[J].郑州大学学报（自然科学版）,1996,28(2):34-39. 被引量：2

清华大学学报（自然科学版）

1997年第3期

浏览历史

内容加载中请稍等...

基于语料库的语言建模被引量：7

参考文献2

同被引文献59

引证文献7

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于语料库的语言建模 被引量：7

参考文献2

同被引文献59

引证文献7

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于语料库的语言建模被引量：7