期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
1
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 n—gram语言模型 哈萨克文机构名识别 实体名识别
下载PDF
N-gram语言模型中的插值平滑技术研究 被引量:13
2
作者 徐望 王炳锡 《信息工程大学学报》 2002年第4期13-15,共3页
本文研究了N元文法(N gram)统计语言模型中的4种插值平滑算法,在中文语言模型中进行了应用,从语言模型复杂度的角度比较了该4种方法解决零概率问题的效率。
关键词 n-gram语言模型 复杂度 插值平滑算法 语音识别 中文语言模型 n元文法统计模型
下载PDF
基于N-gram语言模型的汉字识别后处理研究 被引量:5
3
作者 董广宇 吕学强 +1 位作者 王涛 施水才 《微计算机信息》 2009年第10期276-278,共3页
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率... 为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。 展开更多
关键词 n语言模型 维特比算法 汉字识别 后处理
下载PDF
基于扩展N元文法模型的快速语言模型预测算法 被引量:6
4
作者 单煜翔 陈谐 +1 位作者 史永哲 刘加 《自动化学报》 EI CSCD 北大核心 2012年第10期1618-1626,共9页
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现... 针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度. 展开更多
关键词 语音识别 语言模型预测 n元文法模型 解码
下载PDF
汉语统计语言模型的N值分析 被引量:8
5
作者 张树武 黄泰翼 《中文信息学报》 CSCD 北大核心 1998年第1期35-41,共7页
N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未... N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。 展开更多
关键词 语音识别 汉语 统计语言模型 n语言模型
下载PDF
基于N元语言模型的文本分类方法 被引量:11
6
作者 周新栋 王挺 《计算机应用》 CSCD 北大核心 2005年第1期11-13,16,共4页
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计... 分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。 展开更多
关键词 文本分类 n语言模型 参数平滑
下载PDF
基于N-Gram模型的高速汉字编码识别系统 被引量:4
7
作者 李继锋 刘群 《计算机工程与应用》 CSCD 北大核心 2004年第3期39-41,177,共4页
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字... 该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。 展开更多
关键词 编码识别 n元语法模型 一元语法模型 n—gram模型 自动识别文档 汉字编码
下载PDF
基于N-gram模型的中文分词算法的研究 被引量:4
8
作者 丁洁 赵景惠 《福建电脑》 2017年第5期110-110,116,共2页
本文对中文分词的定义和正向最大匹配法进行了分析和研究,本系统在传统机械分词的基础上加入了优化技术,基于N-gram模型的中文分词算法的效率和正确率都相对较高,最后对中文分词技术进行了一定的展望和提出了下一步的工作。
关键词 中文分词 正向最大匹配法 基于n—gram模型
下载PDF
基于混合语言模型的中文智能输入技术
9
作者 章森 刘磊 刁麓弘 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第9期997-1001,共5页
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字... 分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标. 展开更多
关键词 中文智能输入 n—gram语言模型 MARKOV模型 字词网格 用户行为
下载PDF
基于字符语言模型的垃圾邮件过滤 被引量:8
10
作者 苏绥 林鸿飞 叶正 《中文信息学报》 CSCD 北大核心 2009年第2期41-47,共7页
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于... 基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。 展开更多
关键词 计算机应用 中文信息处理 垃圾邮件过滤 语言模型 朴素贝叶斯 支撑向量机 n—gram
下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
11
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 n—gram 贝叶斯模型 特征选择
下载PDF
基于统计与规则相结合的汉语计算语言模型及其在语音识别中的应用 被引量:2
12
作者 关毅 王晓龙 张凯 《高技术通讯》 EI CAS CSCD 1998年第4期16-20,共5页
把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。
关键词 语言模型 短语规则 n元统计文法 语音识别
下载PDF
一种新的潜在语义分析语言模型 被引量:3
13
作者 任纪生 王作英 《高技术通讯》 CAS CSCD 北大核心 2005年第8期1-5,共5页
提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和... 提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和性能均优于传统基于奇异值分解的潜在语义分析语言模型,相比于三元文法模型,识别错误率相对下降为3.6%~7.1%左右,并为有效量化表示词对进一步提高潜在语义分析语言模型性能提供了新的途径. 展开更多
关键词 语言模型 语音识别 n元文法 潜在语义分析 奇异值分解 汉语语音识别 模型性能 模型预测 插值方式 量化表
下载PDF
关于汉语音字转换中语言模型零概率的问题 被引量:4
14
作者 张瑞强 王作英 陆大 《电子学报》 EI CAS CSCD 北大核心 1998年第8期43-46,共4页
本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这... 本文研究了音字转换中使用的语言模型问题,从语言模型复杂度的角度研究了三种解决零概率问题的方法的效率,back-off方法,删除插值和非线性插值方法.并且给出了这些方法下使得语言模型复杂度最小的参数的递推公式,通过实验验证了这些递推公式的正确性. 展开更多
关键词 语音识别 语言模型 n元文法
下载PDF
利用FP-树构造多词Trigger对语言模型 被引量:2
15
作者 许永林 史晓东 蔡骏 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第B06期243-246,共4页
在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构... 在语音识别系统中,Trigger模型作为语言模型的一种,用于描述长距离词与词之间的关系,然而以往的Trigger语言模型多是针对单个词的模型,本文借鉴数据挖掘中关联规则发现的Apriori算法,利用效率比较高的FP树算法产生多词Trigger对,由此构造多词Trigger对语言模型,这种模型能够更多地利用历史数据,弥补了传统N元文法语言模型描述距离小于N的缺点. 展开更多
关键词 TRIGGER 语言模型 FP-树 构造 Apriori算法 语音识别系统 关联规则发现 er模型 数据挖掘 效率比较 模型描述 n元文法 历史数据 长距离 树算法
下载PDF
基于n元语法模型的领域语音指令识别 被引量:1
16
作者 吴应中 朱华勇 李杰 《微计算机信息》 2009年第14期234-236,共3页
本文采用一种音素匹配法结合改进了的n元语法模型的方法,对语音指令进行理解。指令按照结构划分类别,通过提取其中关键要素来获取指令语义。音素匹配法可以提取指令中部分或全部要素;对于指令中未识别的要素则根据已正确识别的部分,采... 本文采用一种音素匹配法结合改进了的n元语法模型的方法,对语音指令进行理解。指令按照结构划分类别,通过提取其中关键要素来获取指令语义。音素匹配法可以提取指令中部分或全部要素;对于指令中未识别的要素则根据已正确识别的部分,采用改进的n元语法模型进行推测。实验表明该方法取得了较好的效果,并在原有的基础上有一定的提高。 展开更多
关键词 自然语言理解 音素匹配 n元语法模型 指令理解
下载PDF
汉语语言模型的规模对统计机器翻译系统的影响 被引量:1
17
作者 王韦华 徐波 《微计算机信息》 2010年第27期108-109,共2页
本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的翻译系统明显比基于短语的翻译系统性能要好。对于不同的语言模型,它的元数和规模对翻译的结果有较大的影... 本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的翻译系统明显比基于短语的翻译系统性能要好。对于不同的语言模型,它的元数和规模对翻译的结果有较大的影响,但不一定元数或者规模越大,所得到结果就越好。 展开更多
关键词 n元语法 语言模型 基于短语的统计机器翻译系统 层次短语
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
18
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
协同学习环境中感知本体的构建方法 被引量:4
19
作者 詹永照 谢志峰 毛启容 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2007年第2期164-167,共4页
为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知... 为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知信息组织能力受限、维护困难的问题,最大程度地提高协同学习效率.此外,在此模型的基础上提出了一种基于N-Grams的知识域相关关系提取方法,可以自动精确地提取相关关系,适合动态的感知信息处理. 展开更多
关键词 协同学习 感知本体模型 本体构建 n—grams 知识域
下载PDF
基于语音配列的汉语方言自动辨识 被引量:19
20
作者 顾明亮 沈兆勇 《中文信息学报》 CSCD 北大核心 2006年第5期77-82,共6页
本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音... 本文首先讨论了汉语方言辨识的依据及特征选取的基本原则,并由此导出了区间差分倒谱特征。然后利用GMM符号发生器和N元语言模型及ANN建立了一个方言辨识系统,该系统与传统的语种识别系统相比,具有以下特点:第一,系统不需要标注好的语音库,从而降低了汉语方言语音库建设的劳动强度和要求;第二,GMM符号化器计算量远远低于音素辨识器,从而提高了方言辨识速度,便于今后实时处理。第三,具有更高的辨识效果和更好的容错性。汉语普通话和三种方言辨识实验结果表明,系统平均辨识率可以达到83.8%。 展开更多
关键词 计算机应用 中文信息处理 GMM符号化器 n语言模型 汉语方言辨识
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部