期刊文献+
共找到377篇文章
< 1 2 19 >
每页显示 20 50 100
基于N-gram模型的多层融合气象灾害预警文本检验方法
1
作者 兰海波 宋瑛瑛 +3 位作者 曹之玉 朱小祥 沈晨笛 王然 《武汉理工大学学报(信息与管理工程版)》 CAS 2023年第6期961-966,共6页
气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征... 气象灾害预警信息是直接对政府部门和公众进行发布的重要内容,是综合防灾减灾的第一道防线。为提升气象预警信息发布的质量,提出了气象预警文本质量检验模型。通过对全国气象历史预警信息内容进行特征分析,设计了适合气象预警信息特征的多模式融合分词方法,进而建立了预警专业语料库;研发了以归一化N-gram检验模型为主,以字序列组合检验模型为辅的多级检验模型。该模型已在国家突发事件预警信息发布系统中应用,辅助提高了人工预警审核效率,获得了较好的应用效果。 展开更多
关键词 气象灾害预警文本 融合分词 多级检验模型 n-gram模型 多模式融合
下载PDF
一种基于操作码N-gram特征的代码混淆技术识别模型
2
作者 肖玉强 郭云飞 王亚文 《信息工程大学学报》 2023年第1期72-80,共9页
针对代码混淆领域忽略代码混淆技术隐蔽性的安全问题,提出一种基于操作码n-gram特征的代码混淆技术识别模型。通过提取反编译二进制文件程序操作码,生成程序n-gram特征并筛选后输入机器学习分类算法训练,构建识别混淆程序的二分类模型... 针对代码混淆领域忽略代码混淆技术隐蔽性的安全问题,提出一种基于操作码n-gram特征的代码混淆技术识别模型。通过提取反编译二进制文件程序操作码,生成程序n-gram特征并筛选后输入机器学习分类算法训练,构建识别混淆程序的二分类模型与识别混淆技术的多分类模型。基于多来源第三方数据集与两种先进混淆工具验证该识别模型,使用10维特征识别两类混淆工具的混淆程序,平均识别准确率分别为100%、99.6%;使用30维特征识别5层以上混淆组合技术,平均识别准确率为98.8%。实验结果表明提出的代码混淆技术识别模型相较其他识别模型准确率更高,且对不同混淆工具有一定泛化能力,揭示了当前主流代码混淆技术的隐蔽性风险。 展开更多
关键词 混淆识别 n-gram 代码混淆 混淆隐蔽性
下载PDF
基于前后文n-gram模型的古汉语句子切分 被引量:24
3
作者 陈天莹 陈蓉 +2 位作者 潘璐璐 李红军 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第3期192-193,196,共3页
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算... 提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。 展开更多
关键词 n-gram模型 数据稀疏 平滑技术 基于前后文的n-gram模型
下载PDF
Next Words Prediction and Sentence Completion in Bangla Language Using GRU-Based RNN on N-Gram Language Model
4
作者 Afranul Hoque Busrat Jahan +3 位作者 Shaikat Chandra Paul Zinat Ara Zabu Rakhi Mondal Papeya Akter 《Journal of Data Analysis and Information Processing》 2023年第4期388-399,共12页
We use a lot of devices in our daily life to communicate with others. In this modern world, people use email, Facebook, Twitter, and many other social network sites for exchanging information. People lose their valuab... We use a lot of devices in our daily life to communicate with others. In this modern world, people use email, Facebook, Twitter, and many other social network sites for exchanging information. People lose their valuable time misspelling and retyping, and some people are not happy to type large sentences because they face unnecessary words or grammatical issues. So, for this reason, word predictive systems help to exchange textual information more quickly, easier, and comfortably for all people. These systems predict the next most probable words and give users to choose of the needed word from these suggested words. Word prediction can help the writer by predicting the next word and helping complete the sentence correctly. This research aims to forecast the most suitable next word to complete a sentence for any given context. In this research, we have worked on the Bangla language. We have presented a process that can expect the next maximum probable and proper words and suggest a complete sentence using predicted words. In this research, GRU-based RNN has been used on the N-gram dataset to develop the proposed model. We collected a large dataset using multiple sources in the Bangla language and also compared it to the other approaches that have been used such as LSTM, and Naive Bayes. But this suggested approach provides excellent exactness than others. Here, the Unigram model provides 88.22%, Bi-gram model is 99.24%, Tri-gram model is 97.69%, and 4-gram and 5-gram models provide 99.43% and 99.78% on average accurateness. We think that our proposed method profound impression on Bangla search engines. 展开更多
关键词 Bangla Language Words Prediction Sentence Completion GRU RNN Corpus n-gram
下载PDF
基于N-gram算法的网络安全风险检测系统设计
5
作者 林晓鹏 《信息与电脑》 2023年第15期215-217,共3页
随着网络技术的不断发展,网络安全问题日益突出。N-gram算法作为一种有效的文本处理技术,近年来在网络安全领域得到了广泛应用。文章介绍了基于N-gram算法的网络安全风险检测系统设计,旨在通过构建高效、准确的检测模型,对网络安全威胁... 随着网络技术的不断发展,网络安全问题日益突出。N-gram算法作为一种有效的文本处理技术,近年来在网络安全领域得到了广泛应用。文章介绍了基于N-gram算法的网络安全风险检测系统设计,旨在通过构建高效、准确的检测模型,对网络安全威胁进行有效的预防和应对。 展开更多
关键词 网络安全 n-gram算法 检测
下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:12
6
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
下载PDF
一种基于随机n-Grams的文本相似度计算方法 被引量:8
7
作者 王贤明 胡智文 谷琼 《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页
文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gra... 文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足,提出了一种基于随机n—Grams(Randomn—Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明:基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值。 展开更多
关键词 文本相似度 评价函数 集合 n-gram R-Gram
下载PDF
基于梯度核特征及N-gram模型的商品图像句子标注 被引量:5
8
作者 张红斌 姬东鸿 +1 位作者 尹兰 任亚峰 《计算机科学》 CSCD 北大核心 2016年第5期269-273,287,共6页
提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像... 提出为商品图像标注句子,以便更准确地刻画图像内容。首先,执行图像特征学习,选出标注性能最优的梯度核特征完成图像分类和图像检索,该特征能客观描绘商品图像中形状和纹理这两类关键视觉特性。然后,基于语义相关度计算结果从训练图像的文本描述中摘取关键单词,并采用N-gram模型把单词组装为蕴涵丰富语义信息且满足句法模式兼容性的修饰性短语,基于句子模板和修饰性短语生成句子。最后,构建Boosting模型,从若干标注结果中选取BLEU-3评分最优的句子标注商品图像。结果表明,Boosting模型的标注性能优于各基线。 展开更多
关键词 梯度核特征 n-gram模型 商品图像 句子标注 语义相关度计算 修饰性短语
下载PDF
一种基于N-Gram技术的中文文献自动分类方法 被引量:17
9
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 n-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
10
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 n-gram语言模型 链状朴素贝叶斯分类器
下载PDF
N-gram统计模型在机器翻译系统中的应用 被引量:5
11
作者 张健 李素建 刘群 《计算机工程与应用》 CSCD 北大核心 2002年第8期73-75,78,共4页
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时... 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 展开更多
关键词 机器翻译系统 n-gram统计模型 语料库 自然语言处理 计算机
下载PDF
N-gram语言模型的数据平滑技术 被引量:10
12
作者 徐志明 王晓龙 关毅 《计算机应用研究》 CSCD 1999年第7期37-39,44,共4页
本文主要描述了N-gram统计语言模型的几种主要的数据平滑技术;并对各种数据平滑方法进行了经验性对比;讨论了影响这些数据平滑方法性能的有关因素;如训练集规模和N─gram模型的阶数。
关键词 数据平滑 n-gram语言 语言模型 语音识别
下载PDF
基于N-Gram模型的蒙古语文本语种识别算法的研究 被引量:3
13
作者 马志强 张泽广 +3 位作者 闫瑞 刘利民 冯永祥 苏依拉 《中文信息学报》 CSCD 北大核心 2016年第1期133-139,共7页
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的... 互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。 展开更多
关键词 语种识别 n-gram模型 平均距离识别算法 蒙古语文本
下载PDF
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
14
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:5
15
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元n-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
下载PDF
基于n-gram的字符串分割技术的算法实现 被引量:6
16
作者 李文 洪亲 +3 位作者 滕忠坚 石兆英 胡小丹 刘海博 《计算机与现代化》 2010年第9期85-87,91,共4页
相似字符串的模糊查询一直是人们致力研究的方向,目前基于关键字的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果。本文提出一种基于n-gram的字符串分割技术的算法,该技术是实现基于关键字的模糊查询技术的基础,通过对数据集... 相似字符串的模糊查询一直是人们致力研究的方向,目前基于关键字的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果。本文提出一种基于n-gram的字符串分割技术的算法,该技术是实现基于关键字的模糊查询技术的基础,通过对数据集以及搜索关键字的字符串进行分割,利用编辑距离实现相似字符串的模糊查询,该技术在数据挖掘以及论文抄袭等方面都有很重要的应用。 展开更多
关键词 模糊查询 编辑距离 n-gram 字符串分割
下载PDF
基于相关性及语义的n-grams特征加权算法 被引量:2
17
作者 邱云飞 刘世兴 +1 位作者 林明明 邵良杉 《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期992-1001,共10页
n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-gr... n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生. 展开更多
关键词 最大相关度最小冗余度(mRMR) 语义相似度 n-gramS 特征加权
下载PDF
一种新的基于N-gram模型的重复软件缺陷报告检测方法 被引量:2
18
作者 李宁 李战怀 张利军 《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第2期298-303,共6页
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模... 软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率(Recall Rate)提高了25%~55%。 展开更多
关键词 自然语言处理系统 重复缺陷报告 n-gram方法 文本相似度
下载PDF
基于N-gram的Web用户浏览模式分类算法研究 被引量:2
19
作者 朱志国 邓贵仕 孔立平 《情报学报》 CSSCI 北大核心 2009年第3期389-394,共6页
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览... Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架。系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档。最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度。 展开更多
关键词 n-gram方法 Web内容抽取 用户浏览模式 分类算法
下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:2
20
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fastText 类别特征 词汇信息熵 n-gram
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部