期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
N-gram语言模型的数据平滑技术 被引量:10
1
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
2
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
下载PDF
N-gram语言模型中的插值平滑技术研究 被引量:13
3
作者 徐望 王炳锡 《信息工程大学学报》 2002年第4期13-15,共3页
本文研究了N元文法(N gram)统计语言模型中的4种插值平滑算法,在中文语言模型中进行了应用,从语言模型复杂度的角度比较了该4种方法解决零概率问题的效率。
关键词 n-gram语言模型 复杂度 插值平滑算法 语音识别 中文语言模型 N元文法统计模型
下载PDF
不同维度下维吾尔语N-gram语言模型性能分析 被引量:4
4
作者 毛丽旦.尼加提 古丽尼尕尔.买合木提 艾斯卡尔.艾木都拉 《现代电子技术》 北大核心 2019年第10期27-30,共4页
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对... 针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。 展开更多
关键词 n-gram语言模型 性能分析 SRILM MITLM 困惑度 平滑算法 机器翻译
下载PDF
一种适应域的汉语N-gram语言模型平滑算法 被引量:9
5
作者 江铭虎 朱小燕 袁保宗 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第9期99-102,共4页
针对基于汉语词的 Ngram 模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的 Ngram 模型平滑算法。对两种应用域的语料进行了前、后向 0 到3 元文法统计,采用隐马尔可夫模型( ... 针对基于汉语词的 Ngram 模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的 Ngram 模型平滑算法。对两种应用域的语料进行了前、后向 0 到3 元文法统计,采用隐马尔可夫模型( H M M)在语音识别中的成功经验,由 Baum w elch 算法来获得优化权值,每个权值代表相关模型的统计可靠性。由前后向的3gram 模型可得到5gram 文法约束的平滑算法,以弥补统计矩阵数据的稀疏现象。将《人民日报》语料的统计结果作为先验统计结果,和《计算机世界》作为转换域的专业语料进行后继训练,得到一种适应应用域的3gram 模型。实验结果表明,前后向约束的3gram 文法得到的5gram 平滑可以较小的存储代价得到较高的文法约束。 展开更多
关键词 适应域 平滑算法 汉语语音识别 n-gram语言模型
原文传递
基于N-Gram语言模型的并行自适应新闻话题追踪算法 被引量:10
6
作者 屈庆涛 刘其成 牟春晓 《山东大学学报(工学版)》 CAS 北大核心 2018年第6期37-43,共7页
针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于NGram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算... 针对传统的向量空间模型及一元语法模型表示话题的文本特征时忽略词语之间语序关系的问题,提出一种基于NGram语言模型的并行自适应新闻话题追踪算法。使用N-Gram语言模型,利用新闻报道中词语间的语序关系进行文本表示,根据贝叶斯分类算法进行话题追踪,利用最小特征平均可信度阈值更新策略,采用测试新闻报道更新训练集,完善话题模型,并在MapReduce分布式计算模型上予以实现。试验表明,该算法不仅有效地提高了话题追踪效果,而且具有良好的并行加速比和可扩展性。 展开更多
关键词 话题跟踪 n-gram语言模型 朴素贝叶斯分类 MapReduce计算模型
原文传递
RDF问答系统中一种基于N-gram的消歧方法 被引量:1
7
作者 江伟豪 严丽 +2 位作者 屠要峰 周祥生 李忠良 《小型微型计算机系统》 CSCD 北大核心 2022年第5期969-975,共7页
由于知识网络与互联网应用的高速发展,RDF(Resource Description Framework,资源描述框架)被广泛应用到关联数据的存储以及知识图谱的创建当中.基于自然语言处理的RDF问答系统是普通用户查询RDF数据的高效方法.在处理自然语言的过程中... 由于知识网络与互联网应用的高速发展,RDF(Resource Description Framework,资源描述框架)被广泛应用到关联数据的存储以及知识图谱的创建当中.基于自然语言处理的RDF问答系统是普通用户查询RDF数据的高效方法.在处理自然语言的过程中一般分为用户意图理解和查询验证两个阶段.而现存的研究方法是在用户意图理解阶段使用联合消歧的方式消除歧义,并且在查询验证阶段进行穷举验证,无效语句的运行延长了响应时间.本文基于N-gram模型建立语义概率模型,利用语义概率模型在用户意图理解阶段解决结构歧义与映射歧义的问题,且最终将查询意图转化为top-k个最优的查询语句进行查询并获取结果.通过与现存的方法在真实基准数据集中测试对比,本方法提高了在解决隐式关系问题方面的准确率,并且提升了查询性能. 展开更多
关键词 RDF问答系统 n-gram语言模型 自然语言处理 消歧
下载PDF
W-POS语言模型及其选择与匹配算法 被引量:3
8
作者 邱云飞 刘世兴 +1 位作者 魏海超 邵良杉 《计算机应用》 CSCD 北大核心 2015年第8期2210-2214,2248,共6页
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模... n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。 展开更多
关键词 n-grams语言模型 词性 冗余度 稀疏数据 特征选择
下载PDF
基于混合字词网格的汉语音字转换问题的求解 被引量:5
9
作者 章森 《计算机学报》 EI CSCD 北大核心 2007年第7期1145-1153,共9页
汉语音字转换是中文键盘输入、汉语语音识别和中文信息处理的基础,也是一个非常具有挑战性的问题.文中分析了汉语音字转换的研究现状和存在的问题,提出了基于混合字词网格的汉语音字转换方法,给出了系统实现的架构,研究了混合2-gram模... 汉语音字转换是中文键盘输入、汉语语音识别和中文信息处理的基础,也是一个非常具有挑战性的问题.文中分析了汉语音字转换的研究现状和存在的问题,提出了基于混合字词网格的汉语音字转换方法,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,最后讨论了自动预测与系统学习功能的实现.在此基础上设计了原型系统并与Windows XP上的微软拼音输入系统进行了比较,在拼音到汉字的自动转换正确率方面有显著的提高. 展开更多
关键词 汉语音字转换 n-gram语言模型 MARKOV模型 字词网格 用户行为
下载PDF
一种基于聚类的微博关键词提取方法的研究与实现 被引量:9
10
作者 孙兴东 李爱平 李树栋 《信息网络安全》 2014年第12期27-31,共5页
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语... 文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。 展开更多
关键词 微博关键词 聚类算法 TF-IDF TextRank n-gram语言模型
下载PDF
基于CNN-HMM和RNN的维吾尔语语音识别 被引量:3
11
作者 穆凯代姆罕·伊敏江 艾斯卡尔·艾木都拉 米吉提·阿不里米提 《现代电子技术》 2021年第11期172-176,共5页
神经网络模型的发展给资源匮乏语言的语音及语言信息处理带来新的机遇,基于神经网络的少数民族语言的语音识别系统效率及准确率比传统方法有了很大提高。对于大词汇量语音识别系统,适当选择声学模型和语言模型很重要。对较小的维吾尔语... 神经网络模型的发展给资源匮乏语言的语音及语言信息处理带来新的机遇,基于神经网络的少数民族语言的语音识别系统效率及准确率比传统方法有了很大提高。对于大词汇量语音识别系统,适当选择声学模型和语言模型很重要。对较小的维吾尔语语料库(THUYG公开语料库)进行了深入研究,采用Kaldi开源语音识别平台将深度的CNN-HMM作为声学模型,通过理论分析和对比实验,分别在N-gram和RNN两种语言模型上进行对比实验。实验结果表明,基于神经网络RNN语言模型的系统有更好的识别效果,提升了维吾尔语语音识别准确率,并将词错误率降到15.06%。 展开更多
关键词 语音识别 维吾尔语 声学模型 语言模型 CNN-HMM n-gram语言模型 循环神经网络 Kaldi
下载PDF
面向在线评论的领域情感词典的自动构建 被引量:2
12
作者 宗宇 方朝阳 吴波 《现代计算机》 2021年第18期79-84,共6页
为改善现有传统情感词典无法精准捕捉乡村旅游情感词的情况,提出了一种面向在线评论自动构建乡村型情感词典的方法。以江西婺源为研究区域,利用网络爬虫采集了1.6万条微博评论。通过采用N-Gram语言模型和TF-IDF词频统计设置阈值筛选出... 为改善现有传统情感词典无法精准捕捉乡村旅游情感词的情况,提出了一种面向在线评论自动构建乡村型情感词典的方法。以江西婺源为研究区域,利用网络爬虫采集了1.6万条微博评论。通过采用N-Gram语言模型和TF-IDF词频统计设置阈值筛选出候选词集x,将传统HowNet情感词库作为借鉴指导,从候选词集x中人工筛选出y个词频较高且感情最为强烈的种子情感词(x>y)。通过逐一比较x与y词语间的相似度,设定阈值筛选出乡村旅游领域的情感词库。经校验证明,该词典取得了良好的效果。 展开更多
关键词 n-gram语言模型 TF-IDF 词义相似度 词典构建 乡村旅游
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部