期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
基于前后文n-gram模型的古汉语句子切分 被引量:25
1
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
下载PDF
基于N-gram模型的多层融合气象灾害预警文本检验方法
2
作者 兰海波 宋瑛瑛 +3 位作者 曹之玉 朱小祥 沈晨笛 王然 《武汉理工大学学报(信息与管理工程版)》 CAS 2023年第6期961-966,共6页
气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征... 气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征的多模式融合分词方法,进而建立了预警专业语料库;研发了以归一化N-gram检验模型为主,以字序列组合检验模型为辅的多级检验模型。该模型已在国家突发事件预警信息发布系统中应用,辅助提高了人工预警审核效率,获得了较好的应用效果。 展开更多
关键词 气象灾害预警文本 融合分词 多级检验模型 n-gram模型 多模式融合
下载PDF
N-gram语言模型的数据平滑技术 被引量:10
3
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
4
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
5
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
6
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
7
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
下载PDF
N-gram语言模型中的插值平滑技术研究 被引量:13
8
作者 徐望 王炳锡 《信息工程大学学报》 2002年第4期13-15,共3页
本文研究了N元文法(N gram)统计语言模型中的4种插值平滑算法,在中文语言模型中进行了应用,从语言模型复杂度的角度比较了该4种方法解决零概率问题的效率。
关键词 n-gram语言模型 复杂度 插值平滑算法 语音识别 中文语言模型 N元文法统计模型
下载PDF
基于Web的无指导译文消歧词模型与N-gram模型及对比研究 被引量:3
9
作者 刘鹏远 赵铁军 《电子与信息学报》 EI CSCD 北大核心 2009年第12期2969-2974,共6页
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相... 该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。 展开更多
关键词 计算语言学 无指导译文消歧 模型 n-gram模型 PAGE COUNT 双语词汇Web相关度
下载PDF
基于公共词块及N-gram模型的问句相似度算法 被引量:7
10
作者 黄贤英 谢晋 龙姝言 《重庆理工大学学报(自然科学)》 CAS 2017年第10期175-179,197,共6页
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分... 问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。 展开更多
关键词 问句相似度 n-gram模型 一元模型 公共词块
下载PDF
汉语大词表N-gram统计语言模型构造算法
11
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第6期23-25,共3页
本文提出了汉语大词表的N-gram统计语言模型构造技术,根据信息论的观点,给出了自然语言处理中各种应用中的统计语言建模的统一框架描述,提出了一种汉语大词表的Trigram语言模型构造算法。把构造的Trigram语言模... 本文提出了汉语大词表的N-gram统计语言模型构造技术,根据信息论的观点,给出了自然语言处理中各种应用中的统计语言建模的统一框架描述,提出了一种汉语大词表的Trigram语言模型构造算法。把构造的Trigram语言模型应用于大词表非特定人孤立词语音识别系统中,系统识别率达到82%。 展开更多
关键词 n-gram 统计语言模型 汉语大词表 语音识别 算法
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
12
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 n-gram模型 TF/IDF
下载PDF
一种基于N-gram模型和机器学习的汉语分词算法 被引量:23
13
作者 吴应良 韦岗 李海洲 《电子与信息学报》 EI CSCD 北大核心 2001年第11期1148-1153,共6页
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算... 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 展开更多
关键词 汉语分词算法 n-gram模型 机器学习 中文信息处理
下载PDF
OSN中基于分类器和改进n-gram模型的跨站脚本检测方法 被引量:3
14
作者 李沁蕾 王蕊 贾晓启 《计算机应用》 CSCD 北大核心 2014年第6期1661-1665,共5页
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组... 针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组合,检测在线社交网络网页是否恶意。实验结果表明,与传统的分类器检测方法相比,结合了改进n-gram模型的检测方法保证了检测结果的可靠性,误报率约为5%。 展开更多
关键词 在线社交网络 跨站脚本攻击 分类器 n-gram模型 检测
下载PDF
基于改进的N-gram模型和知识库的文本查错算法 被引量:9
15
作者 王琼 旷文珍 许丽 《计算机应用与软件》 北大核心 2021年第10期310-315,320,共7页
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串... 针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率。针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新。经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点。该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义。 展开更多
关键词 n-gram模型 铁路车务标准用语 散串错误 专业术语查错知识库 同音字错误
下载PDF
N-gram模型综述 被引量:21
16
作者 尹陈 吴敏 《计算机系统应用》 2018年第10期33-38,共6页
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、... N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、卡茨回退和Kneser-Ney平滑等平滑方法.在介绍了这些平滑方法的基本原理后,使用困惑度作为度量标准去比较了基于这几种平滑方法所训练出的语言模型. 展开更多
关键词 n-gram模型 拉普拉斯平滑 卡茨回退 Kneser-Ney平滑 困惑度
下载PDF
不同维度下维吾尔语N-gram语言模型性能分析 被引量:4
17
作者 毛丽旦.尼加提 古丽尼尕尔.买合木提 艾斯卡尔.艾木都拉 《现代电子技术》 北大核心 2019年第10期27-30,共4页
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对... 针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。 展开更多
关键词 n-gram语言模型 性能分析 SRILM MITLM 困惑度 平滑算法 机器翻译
下载PDF
基于情景感知的N-gram改进预测模型研究 被引量:4
18
作者 张芸 吕廷杰 李海强 《微计算机应用》 2009年第9期1-7,共7页
情景感知服务(Context-Awareness Services)借助信息技术为用户提供自适应服务,卓著的个性化特性使其将成为下一代杀手级应用。本文综合分析移动用户的位置、时间和业务信息,通过改进N-gram模型有效地预测用户行为趋势,以期通过最优化... 情景感知服务(Context-Awareness Services)借助信息技术为用户提供自适应服务,卓著的个性化特性使其将成为下一代杀手级应用。本文综合分析移动用户的位置、时间和业务信息,通过改进N-gram模型有效地预测用户行为趋势,以期通过最优化的方式使用户需求与其所处的环境资源相匹配,既期望能从用户视角获得更加丰富的信息体验,又期望能对运营商有所帮助,对理论研究及商业实践均具有积极意义。 展开更多
关键词 情景感知 数据挖掘 预测算法 n-gram模型 序列模式
下载PDF
基于N-gram模型的中文分词前k优算法 被引量:5
19
作者 李书豪 陈宇 +1 位作者 吕淑宝 张猛治 《智能计算机与应用》 2016年第6期31-35,共5页
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A... 本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径。最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路。 展开更多
关键词 中文输入法 n-gram模型 k优路径 A*算法
下载PDF
基于N-gram模型的哈萨克词干提取方法 被引量:3
20
作者 吾兰.努鲁别克 热木土拉.麦麦提 艾斯卡尔.艾木都拉 《电脑知识与技术》 2017年第4X期160-162,共3页
哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词... 哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词约束条件,提出了N-gram语言模型的哈萨克词干提取模型。实验结果表明,N-gram语言模型对哈萨克词干的准确提取是有效的,该模型的词干级准确率达到了72.34%。 展开更多
关键词 哈萨克语 形态 词干提取 n-gram模型 词缀
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部