期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
基于N-gram模型的多层融合气象灾害预警文本检验方法 被引量:1
1
作者 兰海波 宋瑛瑛 +3 位作者 曹之玉 朱小祥 沈晨笛 王然 《武汉理工大学学报(信息与管理工程版)》 CAS 2023年第6期961-966,共6页
气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征... 气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征的多模式融合分词方法,进而建立了预警专业语料库;研发了以归一化N-gram检验模型为主,以字序列组合检验模型为辅的多级检验模型。该模型已在国家突发事件预警信息发布系统中应用,辅助提高了人工预警审核效率,获得了较好的应用效果。 展开更多
关键词 气象灾害预警文本 融合分词 多级检验模型 n-gram模型 多模式融合
下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:25
2
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
3
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
4
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
下载PDF
基于Web的无指导译文消歧词模型与N-gram模型及对比研究 被引量:3
5
作者 刘鹏远 赵铁军 《电子与信息学报》 EI CSCD 北大核心 2009年第12期2969-2974,共6页
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相... 该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。 展开更多
关键词 计算语言学 无指导译文消歧 模型 n-gram模型 PAGE COUNT 双语词汇Web相关度
下载PDF
基于公共词块及N-gram模型的问句相似度算法 被引量:7
6
作者 黄贤英 谢晋 龙姝言 《重庆理工大学学报(自然科学)》 CAS 2017年第10期175-179,197,共6页
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分... 问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。 展开更多
关键词 问句相似度 n-gram模型 一元模型 公共词块
下载PDF
一种基于N-gram模型和机器学习的汉语分词算法 被引量:23
7
作者 吴应良 韦岗 李海洲 《电子与信息学报》 EI CSCD 北大核心 2001年第11期1148-1153,共6页
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算... 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 展开更多
关键词 汉语分词算法 n-gram模型 机器学习 中文信息处理
下载PDF
OSN中基于分类器和改进n-gram模型的跨站脚本检测方法 被引量:3
8
作者 李沁蕾 王蕊 贾晓启 《计算机应用》 CSCD 北大核心 2014年第6期1661-1665,共5页
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组... 针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组合,检测在线社交网络网页是否恶意。实验结果表明,与传统的分类器检测方法相比,结合了改进n-gram模型的检测方法保证了检测结果的可靠性,误报率约为5%。 展开更多
关键词 在线社交网络 跨站脚本攻击 分类器 n-gram模型 检测
下载PDF
基于改进的N-gram模型和知识库的文本查错算法 被引量:9
9
作者 王琼 旷文珍 许丽 《计算机应用与软件》 北大核心 2021年第10期310-315,320,共7页
针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串... 针对语音识别引擎识别后文本容易发生散串错误和同音字错误,提出一种基于改进的N-gram模型和专业术语查错知识库的查错算法。采用Witten-Bell平滑算法解决N-gram模型训练过程中数据稀疏问题,并对N-gram模型增加权重分配,增强模型对散串错误的查错率。针对铁路特殊用语规定和同音字错误,构建一种适应关键字的专业术语查错知识库,实现知识库的自动更新。经过实验对比,该算法查错确率为87.9%,相比通用的N-gram查错模型提高52.8百分点。该算法的提出为后续的纠错以及语音识别准确率的提高奠定了基础,并对铁路车务系统语音识别技术的应用具有重要意义。 展开更多
关键词 n-gram模型 铁路车务标准用语 散串错误 专业术语查错知识库 同音字错误
下载PDF
N-gram模型综述 被引量:21
10
作者 尹陈 吴敏 《计算机系统应用》 2018年第10期33-38,共6页
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、... N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、卡茨回退和Kneser-Ney平滑等平滑方法.在介绍了这些平滑方法的基本原理后,使用困惑度作为度量标准去比较了基于这几种平滑方法所训练出的语言模型. 展开更多
关键词 n-gram模型 拉普拉斯平滑 卡茨回退 Kneser-Ney平滑 困惑度
下载PDF
基于N-gram模型的中文分词前k优算法 被引量:5
11
作者 李书豪 陈宇 +1 位作者 吕淑宝 张猛治 《智能计算机与应用》 2016年第6期31-35,共5页
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A... 本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径。最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路。 展开更多
关键词 中文输入法 n-gram模型 k优路径 A*算法
下载PDF
基于N-gram模型的哈萨克词干提取方法 被引量:3
12
作者 吾兰.努鲁别克 热木土拉.麦麦提 艾斯卡尔.艾木都拉 《电脑知识与技术》 2017年第4X期160-162,共3页
哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词... 哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词约束条件,提出了N-gram语言模型的哈萨克词干提取模型。实验结果表明,N-gram语言模型对哈萨克词干的准确提取是有效的,该模型的词干级准确率达到了72.34%。 展开更多
关键词 哈萨克语 形态 词干提取 n-gram模型 词缀
下载PDF
基于N-gram模型的哈萨克语语音识别及处理技术研究 被引量:1
13
作者 孙晓杰 《信息记录材料》 2018年第9期97-99,共3页
语言是人与人之间沟通的桥梁,语言识别技术作为一种非常重要的技术,对于促进世界文化交流有着十分重要的意义。目前,N-gram模型是使用最为广泛的一种语言模型,它不仅能够压缩语音在识别过程中的搜索空间,还能使语音识别准确率大幅提高... 语言是人与人之间沟通的桥梁,语言识别技术作为一种非常重要的技术,对于促进世界文化交流有着十分重要的意义。目前,N-gram模型是使用最为广泛的一种语言模型,它不仅能够压缩语音在识别过程中的搜索空间,还能使语音识别准确率大幅提高。哈萨克语的黏着性较强,其组成结构复杂,这也使人们对哈萨克语的语音识别存在较大困难。为此,本文便基于N-gram模型对哈萨克语语音识别及处理技术进行深入的研究,在此基础上构建了哈萨克语语音识别N-gram模型,最后对基于N-gram模型的哈萨克语语音识别及处理技术的应用效果进行了验证。 展开更多
关键词 n-gram模型 哈萨克语 语音识别 处理技术
下载PDF
基于改进的n-gram模型的URL分类算法研究 被引量:2
14
作者 骆聪 周城 《计算机技术与发展》 2018年第9期38-41,共4页
在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对... 在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对基于内容分析的网页分类技术在部分场景下的不足,提出仅根据网页URL信息进行网页分类。借鉴n-gram模型的思想,并将字符作为基本单位,进行URL特征的提取。考虑到URL各字段对于网页分类的区分能力不同,在剔除部分字段的同时,也为重要的path字段赋予更高的权重,在此基础上改进了n-gram模型。实验结果表明,将改进后的n-gram模型用于URL分类不仅提高了算法效率,而且网页分类的准确性也有所提升,其中训练时间减少了9.34%,网页分类结果的F1值提高了12.63%。 展开更多
关键词 大数据 网页分类 网页URL n-gram模型 URL分类
下载PDF
基于混合N-Gram模型和XGBoost算法的内部威胁检测方法 被引量:1
15
作者 孙丹 饶兰香 +4 位作者 施炜利 孟莎莎 胡少文 胡必伟 应嵩 《计算机与现代化》 2022年第8期99-105,共7页
随着政府企事业单位网络安全机制的建立健全,单纯从外部进入目标系统的攻击门槛越来越高,导致内部威胁逐渐增多。内部威胁区别于外部威胁,攻击者主要来自于内部用户,使得攻击更具隐蔽性,更难被检测。本文提出一种基于混合N-Gram模型和XG... 随着政府企事业单位网络安全机制的建立健全,单纯从外部进入目标系统的攻击门槛越来越高,导致内部威胁逐渐增多。内部威胁区别于外部威胁,攻击者主要来自于内部用户,使得攻击更具隐蔽性,更难被检测。本文提出一种基于混合N-Gram模型和XGBoost算法的内部威胁检测方法。采用词袋、N-Gram、词汇表3种特征提取方法进行实验比对及参数N值筛选,基于混合N-Gram模型和XGBoost算法的内部威胁检测方法检测效果比通过1维数据、2维数据、4维数据的不同特征进行组合的特征子集效果更优,特定度达到0.23,灵敏度达到27.65,准确度达到0.94,F1值达到0.97。对比特定度、灵敏度、准确度、F1值4项评价指标,基于混合N-gram特征提取方法比传统的词袋、词汇表特征提取方法在检测中更有效。此检测方法不仅提高了内部威胁检测特征码的区分度,同时提高了特征提取的准确性和计算性能。 展开更多
关键词 混合n-gram模型 XGBoost算法 内部威胁 SEA数据集 评价指标
下载PDF
基于N-gram模型的网络异常流量监测应用研究 被引量:1
16
作者 黄雅诗 《电脑编程技巧与维护》 2022年第6期157-159,共3页
以网络异常流量为研究对象,采用N-gram算法进行特征提取,以此建立基于N-gram模型的网络异常流量监测模型,从而进行危险预警。与传统方法相比较,该模型识别异常流量特征的准确率平均提升约38%,能在危险预警时达到更好的效果,降低了人工... 以网络异常流量为研究对象,采用N-gram算法进行特征提取,以此建立基于N-gram模型的网络异常流量监测模型,从而进行危险预警。与传统方法相比较,该模型识别异常流量特征的准确率平均提升约38%,能在危险预警时达到更好的效果,降低了人工特征提取的不便性。 展开更多
关键词 网络异常流量 n-gram模型 流量监测 特征提取
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
17
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 n-gram模型 TF/IDF
下载PDF
基于情景感知的N-gram改进预测模型研究 被引量:4
18
作者 张芸 吕廷杰 李海强 《微计算机应用》 2009年第9期1-7,共7页
情景感知服务(Context-Awareness Services)借助信息技术为用户提供自适应服务,卓著的个性化特性使其将成为下一代杀手级应用。本文综合分析移动用户的位置、时间和业务信息,通过改进N-gram模型有效地预测用户行为趋势,以期通过最优化... 情景感知服务(Context-Awareness Services)借助信息技术为用户提供自适应服务,卓著的个性化特性使其将成为下一代杀手级应用。本文综合分析移动用户的位置、时间和业务信息,通过改进N-gram模型有效地预测用户行为趋势,以期通过最优化的方式使用户需求与其所处的环境资源相匹配,既期望能从用户视角获得更加丰富的信息体验,又期望能对运营商有所帮助,对理论研究及商业实践均具有积极意义。 展开更多
关键词 情景感知 数据挖掘 预测算法 n-gram模型 序列模式
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
19
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
20
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部