期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
Hierarchical Classification of Chinese Documents Based on N grams 被引量:1
1
作者 Zhou Shui geng 1, Guan Ji hong 2, He Yan xiang 2 1. State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, China 2. School of Computer Science, Wuhan University, Wuhan 430072, China 《Wuhan University Journal of Natural Sciences》 CAS 2001年第Z1期416-422,共7页
We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation process... We explore the techniques of utilizing N gram information to categorize Chinese text documents hierarchically so that the classifier can shake off the burden of large dictionaries and complex segmentation processing, and subsequently be domain and time independent. A hierarchical Chinese text classifier is implemented. Experimental results show that hierarchically classifying Chinese text documents based N grams can achieve satisfactory performance and outperforms the other traditional Chinese text classifiers. 展开更多
关键词 Chinese text classification n grams feature selection hierarchical classification
下载PDF
一种基于N-Gram的垃圾邮件过滤方法研究 被引量:5
2
作者 林伟 柳荣其 徐熙 《计算机应用与软件》 CSCD 2010年第2期121-123,共3页
为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提... 为了能够有效提取邮件样本集的特征及提高垃圾邮件过滤系统的性能,介绍基于N-Gram的切分算法及语言模型,在其基础上,提出了一种改进的N-Gram切分算法,给出了一种结合N-Gram语言模型的贝叶斯过滤模型。实验结果表明,提出的方法有效地提高了垃圾邮件过滤的性能。 展开更多
关键词 邮件过滤 n—Gram 贝叶斯模型 特征选择
下载PDF
基于N⁃gram算法的网络安全风险检测系统设计 被引量:10
3
作者 蒋荣萍 《现代电子技术》 2021年第1期25-28,共4页
针对传统网络安全风险检测系统存在数据包检测性能较差的问题,设计一种基于N⁃gram算法的网络安全风险检测系统。系统的硬件模块包括数据预处理模块、协同分析模块,其中数据预处理模块主要负责处理被捕获的、存在安全风险的数据包,由检... 针对传统网络安全风险检测系统存在数据包检测性能较差的问题,设计一种基于N⁃gram算法的网络安全风险检测系统。系统的硬件模块包括数据预处理模块、协同分析模块,其中数据预处理模块主要负责处理被捕获的、存在安全风险的数据包,由检测引擎与包解码器组成;协同分析模块主要由协同采集器、协同分析器、协同传感器以及协同管理器构成。基于N⁃gram算法设计网络安全风险检测模块,该模块主要通过协议分析与特征匹配实现网络安全风险检测,其中协议分析主要通过构建协议分析树实现;而特征匹配则主要通过N⁃gram算法实现。为了证明该系统的数据包检测性能,将传统网络安全风险检测系统与该系统进行对比实验,实验结果证明该系统的数据包检测性能优于传统网络安全风险检测系统,实现了性能跃升。 展开更多
关键词 网络安全 风险检测 n⁃gram算法 数据包检测 协同分析 特征匹配
下载PDF
基于n-gram频率的语种识别改进方法 被引量:5
4
作者 郝洺 徐博 +1 位作者 殷绪成 王方圆 《自动化学报》 EI CSCD 北大核心 2018年第3期453-460,共8页
识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法 (如Textcat、LIGA、log LIGA等)识别效果在不同的数据集上相差甚远... 识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法 (如Textcat、LIGA、log LIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性. 展开更多
关键词 语种识别 短文本 n—gram频率 鲁棒性
下载PDF
基于N-Gram模型的高速汉字编码识别系统 被引量:4
5
作者 李继锋 刘群 《计算机工程与应用》 CSCD 北大核心 2004年第3期39-41,177,共4页
该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字... 该文提出了一个应用n元语法模型(N-Gram)自动识别文档中汉字编码的方法,并介绍了一个已投入使用的汉字编码自动识别系统的设计和具体实现。该系统采用的是以字为基本单位的一元语法模型Uni-Gram,建立在语料库的基础上,仅用输入前N个字的字频计算输入串的生成概率,可以高速、准确识别。 展开更多
关键词 编码识别 n元语法模型 一元语法模型 n—Gram模型 自动识别文档 汉字编码
下载PDF
基于N-gram语言模型的哈萨克文机构名识别 被引量:2
6
作者 冯鲸华 古丽拉.阿东别克 玛依来.哈帕尔 《计算机工程与应用》 CSCD 北大核心 2010年第31期135-138,共4页
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训... 针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。 展开更多
关键词 n—gram语言模型 哈萨克文机构名识别 实体名识别
下载PDF
基于N-gram共现的机器翻译自动评估的研究
7
作者 吕婷婷 张政 《北京工商大学学报(自然科学版)》 CAS 2006年第5期50-53,共4页
机器翻译的研究是人工智能中自然语言理解部分的一个分支,而译文质量是机器翻译系统评估的核心问题.讨论了基于n-gram共现的机器翻译自动评测框架,介绍了BLEU、N IST两种自动评价方法,并针对其提出若干改进思路,旨在更好地实现机器翻译... 机器翻译的研究是人工智能中自然语言理解部分的一个分支,而译文质量是机器翻译系统评估的核心问题.讨论了基于n-gram共现的机器翻译自动评测框架,介绍了BLEU、N IST两种自动评价方法,并针对其提出若干改进思路,旨在更好地实现机器翻译译文质量的自动评估,从而对机器翻译系统的开发和完善提供更好的指导和辅助. 展开更多
关键词 机器翻译评估 BLEU n—gram共现 准确度
下载PDF
基于N-gram模型的中文分词算法的研究 被引量:4
8
作者 丁洁 赵景惠 《福建电脑》 2017年第5期110-110,116,共2页
本文对中文分词的定义和正向最大匹配法进行了分析和研究,本系统在传统机械分词的基础上加入了优化技术,基于N-gram模型的中文分词算法的效率和正确率都相对较高,最后对中文分词技术进行了一定的展望和提出了下一步的工作。
关键词 中文分词 正向最大匹配法 基于n—gram模型
下载PDF
协同学习环境中感知本体的构建方法 被引量:4
9
作者 詹永照 谢志峰 毛启容 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2007年第2期164-167,共4页
为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知... 为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知信息组织能力受限、维护困难的问题,最大程度地提高协同学习效率.此外,在此模型的基础上提出了一种基于N-Grams的知识域相关关系提取方法,可以自动精确地提取相关关系,适合动态的感知信息处理. 展开更多
关键词 协同学习 感知本体模型 本体构建 ngrams 知识域
下载PDF
基于字符语言模型的垃圾邮件过滤 被引量:8
10
作者 苏绥 林鸿飞 叶正 《中文信息学报》 CSCD 北大核心 2009年第2期41-47,共7页
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于... 基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。 展开更多
关键词 计算机应用 中文信息处理 垃圾邮件过滤 语言模型 朴素贝叶斯 支撑向量机 n—Gram
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
11
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
基于字节频度的异常入侵检测影响因素研究 被引量:1
12
作者 翁广安 余胜生 周敬利 《计算机工程》 CAS CSCD 2012年第14期119-121,127,共4页
目前数据包负载异常检测缺乏针对性的测试数据。为此,构建一个模拟网络数据集,对基于字节频度分布的异常检测模型进行测试分析。实验结果表明,该数据集对模型测试具有可行性;数据包大小的分布特性对检测准确度有较大影响,必须根据特定... 目前数据包负载异常检测缺乏针对性的测试数据。为此,构建一个模拟网络数据集,对基于字节频度分布的异常检测模型进行测试分析。实验结果表明,该数据集对模型测试具有可行性;数据包大小的分布特性对检测准确度有较大影响,必须根据特定网络服务数据包尺寸的密集分布区确定检测阈值,并尽量向小尺寸方向校准;数据包之间的频度差异对分组求频度平均值的模型有很大影响,组内数据包之间过大的频度差异将导致包模型失效,连接模型性能降低较大,改进的包模型则不受影响。 展开更多
关键词 字节频度分布 n—gram序列 负载异常检测 数据包负载 网络入侵检测系统
下载PDF
改进的TF-IDF模型在特征抽取中的应用 被引量:3
13
作者 李运田 吴琼 郑献卫 《工业控制计算机》 2014年第2期51-51,共1页
在TF-IDF的基础上,提出了一种利用N-gram方法提取特征值的方法,能够很好的从一系列文本中取出某篇文本的特征值,并且可以对分词出现错误的一些连续的词语进行合并得到正确的一组词语,减少了分词出现的错误率。
关键词 TF—IDF n—gram 特征值
下载PDF
基于混合语言模型的中文智能输入技术
14
作者 章森 刘磊 刁麓弘 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第9期997-1001,共5页
分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字... 分析了中文智能输入技术的研究现状和存在的问题,提出了基于混合n-gram的中文智能输入技术,给出了系统实现的架构,研究了混合2-gram模型的有关问题以及字词网格的求解算法,讨论了自动预测与系统学习功能的实现.测试结果表明拼音到汉字自动转换正确率达到了92.1%,基本实现了预期目标. 展开更多
关键词 中文智能输入 n—gram语言模型 MARKOV模型 字词网格 用户行为
下载PDF
基于C4.5决策树的IMS网络畸形SIP消息检测方法
15
作者 刘彩霞 郭严赞 +1 位作者 谢晓龙 李志刚 《信息工程大学学报》 2013年第1期42-48,共7页
针对现有方法对与正常消息相似度较高的畸形SIP消息检测效果不佳的问题,提出了一种基于C4.5决策树的IMS网络畸形SIP消息检测方法。该方法首先利用n-gram技术将SIP消息映射至高维空间,利用样本属性的信息增益进行特征提取;然后基于C4.5... 针对现有方法对与正常消息相似度较高的畸形SIP消息检测效果不佳的问题,提出了一种基于C4.5决策树的IMS网络畸形SIP消息检测方法。该方法首先利用n-gram技术将SIP消息映射至高维空间,利用样本属性的信息增益进行特征提取;然后基于C4.5决策树算法,根据特征属性的信息增益率构建决策树并对畸形SIP消息进行检测;最后定义了畸形SIP消息构造函数并构建相应样本数据集,对该方法进行了仿真验证。仿真结果表明,该方法对与正常消息相似度较高的畸形SIP消息具有94.8%的检测率。 展开更多
关键词 IMS网络 畸形SIP消息 信息增益 C4 5决策树 n—gram技术
下载PDF
基于加权信息增益的恶意代码检测方法 被引量:9
16
作者 张小康 帅建梅 史林 《计算机工程》 CAS CSCD 北大核心 2010年第6期149-151,共3页
采用数据挖掘技术检测恶意代码,提出一种基于加权信息增益的特征选择方法。该方法综合考虑特征频率和信息增益的作用,能够更加准确地选取有效特征,从而提高检测性能。实现一个恶意代码检测系统,采用二进制代码的N-gram和变长N-gram作为... 采用数据挖掘技术检测恶意代码,提出一种基于加权信息增益的特征选择方法。该方法综合考虑特征频率和信息增益的作用,能够更加准确地选取有效特征,从而提高检测性能。实现一个恶意代码检测系统,采用二进制代码的N-gram和变长N-gram作为特征提取方法,加权信息增益作为特征选择方法,使用多种分类器进行恶意代码检测。实验结果证明,该方法能有效提高恶意代码的检测率和准确率。 展开更多
关键词 数据挖掘 变长n—gram 特征选择 信息增益
下载PDF
电子政务主题词表的自动构建研究
17
作者 仲云云 侯汉清 杜慧平 《中国索引》 2008年第2期44-50,共7页
电子政务主题词表是电子政务信息的组织和检索的重要语义工具。传统手工编制叙词表的方法耗费大量人力、物力,成本高、历时长,已不再适用于网络环境。本文拟以共青团电子政务词表为例,探讨用计算机自动构建叙词表的方法。主要技术要... 电子政务主题词表是电子政务信息的组织和检索的重要语义工具。传统手工编制叙词表的方法耗费大量人力、物力,成本高、历时长,已不再适用于网络环境。本文拟以共青团电子政务词表为例,探讨用计算机自动构建叙词表的方法。主要技术要点包括:利用N-gram方法进行选词、结合Dice测度、相似度算法、模式匹配等多种技术来自动识别词汇的等同、等级和相关关系。最后评测了自动构建的电子政务主题词表的性能。 展开更多
关键词 电子政务 叙词表 词表自动构建 词间关系识别 n—gram方法
下载PDF
图书内容主题索引的自动编制实验 被引量:6
18
作者 潘雪莲 侯汉清 许扬威 《大学图书馆学报》 CSSCI 北大核心 2008年第3期28-33,共6页
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结... 针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的图书内容主题索引的自动编制方法是可行的。 展开更多
关键词 书后索引 主题索引 自动标引 n—gram方法
下载PDF
基于音节首字母匹配的音译单元对齐方法 被引量:1
19
作者 赵明明 梁颖红 +1 位作者 周美玲 姚建民 《江南大学学报(自然科学版)》 CAS 2009年第6期639-642,共4页
音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于... 音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。 展开更多
关键词 音译单元 机器音译 VITERBI算法 n—gram模型
下载PDF
一种抗噪音的中文网页分类方法 被引量:1
20
作者 王小冷 王斌 《中文信息学报》 CSCD 北大核心 2007年第4期48-54,共7页
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网... 网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。 展开更多
关键词 计算机应用 中文信息处理 n—gram模型 nBayes Knn
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部