期刊文献+
共找到200篇文章
< 1 2 10 >
每页显示 20 50 100
文本检索的统计语言建模方法综述 被引量:19
1
作者 丁国栋 白硕 王斌 《计算机研究与发展》 EI CSCD 北大核心 2006年第5期769-776,共8页
统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重... 统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术·首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战· 展开更多
关键词 信息检索 统计语言建模 语言模型 平滑
下载PDF
统计语言模型综述 被引量:37
2
作者 邢永康 马少平 《计算机科学》 CSCD 北大核心 2003年第9期22-26,共5页
1引言 统计语言模型产生于基于统计方法的自然语言处理系统的研究中:如语音识别系统、字符识别系统以及机器自动翻译系统等.对于一个语音识别系统,给定语音信号a和语言的句子集合S,则系统需要解决的问题可以表示为:
关键词 统计语言模型 自然语言处理系统 概率分解 语音识别系统 统计方法 信息处理
下载PDF
基于统计语言模型的信息检索 被引量:9
3
作者 李晓光 王大玲 于戈 《计算机科学》 CSCD 北大核心 2005年第8期124-127,共4页
本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信... 本文对基于统计语言模型的信息检索进行了综述,介绍了目前基于统计语言模型信息检索中比较有代表性的模型,给出了语言模型估计中常用的几种平滑技术,将语言模型同目前流行信息检索模型进行了比较,在此基础上,指出了基于统计语言模型信息检索的研究方向。 展开更多
关键词 统计语言模型 信息检索 平滑技术 布尔模型 概率模型 向量空间模型 信息检索模型 模型估计
下载PDF
基于PAT TREE统计语言模型与关键词自动提取 被引量:12
4
作者 杨文峰 李星 《计算机工程与应用》 CSCD 北大核心 2001年第15期17-19,35,共4页
未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语... 未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串。最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%。实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。 展开更多
关键词 信息检索 统计语言模型 关键词 自动提取 PATtree INTERNET
下载PDF
一种新颖的词聚类算法和可变长统计语言模型 被引量:17
5
作者 陈浪舟 黄泰翼 《计算机学报》 EI CSCD 北大核心 1999年第9期942-948,共7页
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往... 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型. 展开更多
关键词 聚类 统计语言模型 可变长模型 自然语言处理
下载PDF
基于统计语言模型的英语易读性研究 被引量:12
6
作者 邢富坤 程东元 《解放军外国语学院学报》 CSSCI 北大核心 2010年第6期19-24,共6页
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,... 英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,并取得了较好的应用效果。本文在回顾易读性研究历史的基础上,重点介绍当前基于统计语言模型的英语易读性研究的最新进展情况,并对这种研究方法进行评析,指出今后的努力方向,以期能够更深入地开展易读性研究,不断提高易读性研究水平。 展开更多
关键词 统计语言模型 易读性 语料库 自然语言处理
下载PDF
利用覆盖歧义检测法和统计语言模型进行汉语自动分词 被引量:8
7
作者 王显芳 杜利民 《电子与信息学报》 EI CSCD 北大核心 2003年第9期1168-1173,共6页
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭... 该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。 展开更多
关键词 覆盖歧义检测法 统计语言模型 汉语 自动分词 切分正确率
下载PDF
一种改进的汉语N元文法统计语言模型 被引量:3
8
作者 田斌 田红心 易克初 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2000年第1期62-64,75,共4页
提出一种利用声学匹配结果平滑语言模型的新方法.根据汉语语言的特点,利用声学识别中提供的汉语分词信息修正统计语言模型中N元文法转移概率分布,有效地提高了汉语语音识别系统统计模型的顽健性能.
关键词 语音识别 统计语言模型 汉语
下载PDF
基于最大熵方法的统计语言模型 被引量:4
9
作者 徐延勇 郭忠伟 周献中 《计算机工程与应用》 CSCD 北大核心 2002年第5期53-55,121,共4页
针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;... 针对现有统计语言模型中存在计算量过大和系统负担过重的问题,该文提出了一种基于最大熵方法的统计语言模型。模型在参数估计阶段,引入约束最优化理论中拉格朗日乘数定理和牛顿迭代算法,以确保模型在多个约束条件中可求出最优化参数值;在特征选择阶段,采用计算近似增益的平行算法,解决模型计算量过大和系统开销问题。将该模型用于汉语句子分析的软件实验中表明:模型具有较高的计算效率和鲁棒性。 展开更多
关键词 自然语言处理 统计语言模型 最大熵方法 鲁棒性 计算机
下载PDF
汉语统计语言模型的N值分析 被引量:8
10
作者 张树武 黄泰翼 《中文信息学报》 CSCD 北大核心 1998年第1期35-41,共7页
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未... N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。 展开更多
关键词 语音识别 汉语 统计语言模型 N元语言模型
下载PDF
基于统计语言模型的信息检索演进探析 被引量:4
11
作者 李进华 周朴雄 《图书情报知识》 CSSCI 北大核心 2010年第3期51-61,共11页
将自然语言处理技术——统计语言模型引入信息检索领域产生了一系列全新的检索模型,典型包括查询似然模型、生成相关性模型、词项依赖模型、统计翻译模型、泊松分布模型以及风险最小化框架等。本文从统计学模型以及N-gram技术的角度重... 将自然语言处理技术——统计语言模型引入信息检索领域产生了一系列全新的检索模型,典型包括查询似然模型、生成相关性模型、词项依赖模型、统计翻译模型、泊松分布模型以及风险最小化框架等。本文从统计学模型以及N-gram技术的角度重点解析这些信息检索模型的演进过程。最后对基于统计语言模型的信息检索模型的发展过程以及未来发展趋势和挑战进行了总结。 展开更多
关键词 信息检索 统计语言模型 平滑技术 演进
下载PDF
基于互信息的统计语言模型平滑技术 被引量:8
12
作者 黄永文 何中市 《中文信息学报》 CSCD 北大核心 2005年第4期46-51,共6页
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基... 数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题。现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析。本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性。实验结果表明该技术优于目前常用的Katz平滑技术。 展开更多
关键词 计算机应用 中文信息处理 统计语言模型 平滑技术 互信息 困惑度
下载PDF
基于全局折扣的统计语言模型平滑技术 被引量:3
13
作者 黄永文 何中市 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第8期51-55,共5页
数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(GlobalDiscount)的平滑... 数据平滑是用来解决统计语言模型在实际应用中遇到的数据稀疏问题.现有平滑技术利用不同的折扣和补偿策略来处理数据稀疏问题,在计算复杂性与合理性方面各有其优缺点.针对二元模型,笔者提出了一种基于全局折扣GD(GlobalDiscount)的平滑技术,其基本思想是对模型中每个二元对的频率值都进行不同程度的折扣,并用低阶模型对零概率事件进行补偿,通过极小化困惑度原则体现了模型的合理性.实验结果表明该平滑技术优于目前常用的Katz平滑技术. 展开更多
关键词 统计语言模型 平滑技术 全局折扣 困惑度
下载PDF
应用于信息检索的统计语言模型研究进展 被引量:4
14
作者 李纲 郑重 《情报理论与实践》 CSSCI 北大核心 2008年第3期471-476,共6页
统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的SLM-IR模型的提出,是信息检索模型研究上的重大进展。本文介绍了统计语言模型在信息检索领域的基本模型及相关问题,... 统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的SLM-IR模型的提出,是信息检索模型研究上的重大进展。本文介绍了统计语言模型在信息检索领域的基本模型及相关问题,重点分析了Lemur工具箱和标题语言模型的原理及模型,最后从整体上介绍了该领域的国际动态和研究进展情况。 展开更多
关键词 信息检索 统计语言模型 查询条件概率模型 主题语言模型
下载PDF
基于统计语言模型的双向词类标注方法 被引量:2
15
作者 刘启和 詹思瑜 杨国纬 《计算机科学》 CSCD 北大核心 2003年第9期59-60,168,共3页
1引言 在自然语言处理中,词类标注是一项重要的工作,它为句法分析、机器翻译、自然语言理解等提供语法知识.在进行自然语言的词类标注时,由于词的多词类现象,有许多词在不同的上下文中有不同的词类,汉语词类标注过程其实就是一个词类排... 1引言 在自然语言处理中,词类标注是一项重要的工作,它为句法分析、机器翻译、自然语言理解等提供语法知识.在进行自然语言的词类标注时,由于词的多词类现象,有许多词在不同的上下文中有不同的词类,汉语词类标注过程其实就是一个词类排歧过程[12]. 展开更多
关键词 自然语言处理 统计语言模型 双向词类标注方法 知识库 信息处理
下载PDF
统计语言模型中词的自动聚类技术研究 被引量:3
16
作者 高升 徐志明 《计算机工程与应用》 CSCD 北大核心 2003年第11期69-70,152,共3页
为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大... 为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。 展开更多
关键词 统计语言模型 聚类算法 评价函数 语义分类体系
下载PDF
基于统计语言模型改进的Word2Vec优化策略研究 被引量:13
17
作者 张克君 史泰猛 +1 位作者 李伟男 钱榕 《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 展开更多
关键词 词向量 统计语言模型 TFIDF 文本关键词 CBOW-TFIDF
下载PDF
统计语言模型能做什么? 被引量:31
18
作者 黄昌宁 《语言文字应用》 CSSCI 北大核心 2002年第1期77-84,共8页
20年来中文信息处理取得了巨大成绩 ,这是有目共睹的。当前摆在学界面前的一个重要任务是确立全局的战略目标 ,并尽快在一些社会急需的发展方向上取得实质性的突破。为此 ,首先要澄清某些认识 ,比如中文信息处理是不是一定要在汉语理解... 20年来中文信息处理取得了巨大成绩 ,这是有目共睹的。当前摆在学界面前的一个重要任务是确立全局的战略目标 ,并尽快在一些社会急需的发展方向上取得实质性的突破。为此 ,首先要澄清某些认识 ,比如中文信息处理是不是一定要在汉语理解的基础上推进 ?对于解决中文信息处理的一些急需课题来说 ,究竟什么方法是最适用的 ?本文首先对国内外自然语言处理的历史作了一个简短的回顾 ,说明从小规模受限语言处理走向大规模真实文本处理 ,是一个不可抗拒的历史潮流。并通过一些具体的实例来说明 :统计语言模型能解决什么问题 ?它为什么在一些有可比评测的课题上连连胜出 ?借此阐明 ,具有统一测试数据和统一计分方法的可比评测是推动科学技术进步的有力杠杆。我们应当拿起这个武器。 展开更多
关键词 中文信息处理 统计语言模型
下载PDF
统计语言模型在信息检索中的应用 被引量:1
19
作者 赵正文 康耀红 《计算机工程与应用》 CSCD 北大核心 2006年第36期158-161,共4页
首先介绍了统计语言模型(SLM)的发展及常用的N元(n-gram)模型,对信息检索过程中的主要模型作了公式化描述并比较了不同模型,指出了它们之间及与传统概率检索方法的异同,分析了统计语言模型的弱点,最后介绍了对其可能的改进方法及最新研... 首先介绍了统计语言模型(SLM)的发展及常用的N元(n-gram)模型,对信息检索过程中的主要模型作了公式化描述并比较了不同模型,指出了它们之间及与传统概率检索方法的异同,分析了统计语言模型的弱点,最后介绍了对其可能的改进方法及最新研究进展,讨论了在中文信息检索中的应用和面对的挑战。 展开更多
关键词 统计语言模型 信息检索 概率模型
下载PDF
汉语统计语言模型训练样本容量的定量化度量 被引量:1
20
作者 张仰森 《计算机科学》 CSCD 北大核心 2009年第10期222-224,249,共4页
统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样... 统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。 展开更多
关键词 汉语统计语言模型 训练语料样本 样本容量 相对误差
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部