期刊文献+
共找到240篇文章
< 1 2 12 >
每页显示 20 50 100
基于N-gram模型的多层融合气象灾害预警文本检验方法
1
作者 兰海波 宋瑛瑛 +3 位作者 曹之玉 朱小祥 沈晨笛 王然 《武汉理工大学学报(信息与管理工程版)》 CAS 2023年第6期961-966,共6页
气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征... 气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征的多模式融合分词方法,进而建立了预警专业语料库;研发了以归一化N-gram检验模型为主,以字序列组合检验模型为辅的多级检验模型。该模型已在国家突发事件预警信息发布系统中应用,辅助提高了人工预警审核效率,获得了较好的应用效果。 展开更多
关键词 气象灾害预警文本 融合分词 多级检验模型 n-gram模型 多模式融合
下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:24
2
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
3
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
4
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
5
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
6
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 N—gram 贝叶斯模型 特征选择
下载PDF
基于Web的无指导译文消歧词模型与N-gram模型及对比研究 被引量:3
7
作者 刘鹏远 赵铁军 《电子与信息学报》 EI CSCD 北大核心 2009年第12期2969-2974,共6页
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相... 该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。 展开更多
关键词 计算语言学 无指导译文消歧 词模型 n-gram模型 PAGE COUNT 双语词汇Web相关度
下载PDF
基于公共词块及N-gram模型的问句相似度算法 被引量:7
8
作者 黄贤英 谢晋 龙姝言 《重庆理工大学学报(自然科学)》 CAS 2017年第10期175-179,197,共6页
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分... 问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。 展开更多
关键词 问句相似度 n-gram模型 一元模型 公共词块
下载PDF
N-Gram模型下网络客户端病毒防御方法仿真
9
作者 孙茜 吴鸣 《计算机仿真》 北大核心 2022年第10期400-404,共5页
针对当前的客户端病毒防御方法无法获取病毒的特征向量,导致病毒防御不具有针对性等问题,提出一种基于N-Gram模型的网络客户端病毒防御方法。分析不同长度的N-Gram特征对网络客户端病毒检测的效果,并通过N-Gram模型获取病毒的特征向量,... 针对当前的客户端病毒防御方法无法获取病毒的特征向量,导致病毒防御不具有针对性等问题,提出一种基于N-Gram模型的网络客户端病毒防御方法。分析不同长度的N-Gram特征对网络客户端病毒检测的效果,并通过N-Gram模型获取病毒的特征向量,整合特征选择的详细操作步骤。将距离相似度检测技术和决策算法相结合检测网络客户端病毒,设计网络客户端病毒防御流程。当检测到病毒入侵后,评估病毒危险等级,制定病毒防御策略。仿真证明了所提方法能够有效防御网络客户端病毒。 展开更多
关键词 模型 网络客户端 病毒防御 决策算法
下载PDF
一种基于N-gram模型和机器学习的汉语分词算法 被引量:22
10
作者 吴应良 韦岗 李海洲 《电子与信息学报》 EI CSCD 北大核心 2001年第11期1148-1153,共6页
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算... 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 展开更多
关键词 汉语分词算法 n-gram模型 机器学习 中文信息处理
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
11
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 n-gram模型 TF/IDF
下载PDF
OSN中基于分类器和改进n-gram模型的跨站脚本检测方法 被引量:3
12
作者 李沁蕾 王蕊 贾晓启 《计算机应用》 CSCD 北大核心 2014年第6期1661-1665,共5页
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组... 针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组合,检测在线社交网络网页是否恶意。实验结果表明,与传统的分类器检测方法相比,结合了改进n-gram模型的检测方法保证了检测结果的可靠性,误报率约为5%。 展开更多
关键词 在线社交网络 跨站脚本攻击 分类器 n-gram模型 检测
下载PDF
基于改进的N-gram模型和知识库的文本查错算法 被引量:9
13
作者 王琼 旷文珍 许丽 《计算机应用与软件》 北大核心 2021年第10期310-315,320,共7页
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串... 针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率。针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新。经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点。该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义。 展开更多
关键词 n-gram模型 铁路车务标准用语 散串错误 专业术语查错知识库 同音字错误
下载PDF
一种基于N-gram组合的中文垃圾邮件过滤方法 被引量:5
14
作者 刘新斌 李俊 《微电子学与计算机》 CSCD 北大核心 2004年第12期85-91,共7页
中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感... 中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感性(costsensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率穴SR雪和正确率穴SP雪等参数考察实验数据。实验表明:这种方法代价较小,而正确率较高。最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求。 展开更多
关键词 垃圾邮件过滤 n-gram 中文文本 自动分词 ISP 算法 贝叶斯模型 TCR 正确率 召回
下载PDF
N-gram模型综述 被引量:19
15
作者 尹陈 吴敏 《计算机系统应用》 2018年第10期33-38,共6页
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、... N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、卡茨回退和Kneser-Ney平滑等平滑方法.在介绍了这些平滑方法的基本原理后,使用困惑度作为度量标准去比较了基于这几种平滑方法所训练出的语言模型. 展开更多
关键词 n-gram模型 拉普拉斯平滑 卡茨回退 Kneser-Ney平滑 困惑度
下载PDF
利用N-gram和语义分析的维吾尔语文本相似性检测方法 被引量:1
16
作者 张莹 亚森·艾则孜 吴顺祥 《计算机应用研究》 CSCD 北大核心 2019年第9期2722-2725,2729,共5页
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析... 为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。 展开更多
关键词 维吾尔语 文本相似性检测 n-gram统计模型 潜在语义分析
下载PDF
一种基于n-gram短语的文本聚类方法研究
17
作者 孙桂煌 《现代计算机》 2011年第14期9-11,16,共4页
由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-... 由于文本自身特点使得传统的文档表示模型VSM不能很好地反映文本信息.也让传统数据挖掘聚类算法得不到很好的性能表现。针对传统文本聚类方法中文本表示模型VSM和聚类算法的不足,提出一种基于n—gram短语的文本聚类方法,该方法利用n-gram短语构建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实验结果显示,此方法是一种能获得较好聚类结果的有效方法。 展开更多
关键词 文本聚类 n-gram短语 向量空间模型 相关文档模型
下载PDF
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
18
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 N—gram语言模型 哈萨克文机构名识别 实体名识别
下载PDF
不同维度下维吾尔语N-gram语言模型性能分析 被引量:3
19
作者 毛丽旦.尼加提 古丽尼尕尔.买合木提 艾斯卡尔.艾木都拉 《现代电子技术》 北大核心 2019年第10期27-30,共4页
针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对... 针对当前维吾尔语语言模型存在的语料库数据稀疏问题以及困惑度较高等问题,在SRILM和MITLM两种工具生成的2-gram,3-gram,…,9-gram语言模型做了对比实验,试图找出在一定规模的维吾尔语语料条件下使困惑度最低的N-gram语言模型。通过对比分析最终得出结论,对于基于维吾尔语句子的N-gram模型,维度N取在介于3~5之间较宜,困惑度和计算复杂度等因素考虑N=3为较优。这一结论将有助于维吾尔语自然语言处理的发展。 展开更多
关键词 n-gram语言模型 性能分析 SRILM MITLM 困惑度 平滑算法 机器翻译
下载PDF
基于N-gram语言模型的汉字识别后处理研究 被引量:5
20
作者 董广宇 吕学强 +1 位作者 王涛 施水才 《微计算机信息》 2009年第10期276-278,共3页
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率... 为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。 展开更多
关键词 N元语言模型 维特比算法 汉字识别 后处理
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部