期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于N-gram算法的网络安全风险检测系统设计 被引量:1
1
作者 林晓鹏 《信息与电脑》 2023年第15期215-217,共3页
随着网络技术的不断发展,网络安全问题日益突出。N-gram算法作为一种有效的文本处理技术,近年来在网络安全领域得到了广泛应用。文章介绍了基于N-gram算法的网络安全风险检测系统设计,旨在通过构建高效、准确的检测模型,对网络安全威胁... 随着网络技术的不断发展,网络安全问题日益突出。N-gram算法作为一种有效的文本处理技术,近年来在网络安全领域得到了广泛应用。文章介绍了基于N-gram算法的网络安全风险检测系统设计,旨在通过构建高效、准确的检测模型,对网络安全威胁进行有效的预防和应对。 展开更多
关键词 网络安全 n-gram算法 检测
下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:6
2
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元n-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
下载PDF
基于词表和N-gram算法的新词识别实验 被引量:7
3
作者 曹艳 杜慧平 +1 位作者 刘竟 侯汉清 《情报科学》 CSSCI 北大核心 2007年第11期1687-1691,1695,共6页
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键... 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 展开更多
关键词 n-gram算法 未登录词 新词识别 停用词典 过滤词典
下载PDF
基于规则和N-Gram算法的新词识别研究 被引量:6
4
作者 姜如霞 黄水源 +1 位作者 段隆振 罗丽娟 《现代电子技术》 北大核心 2019年第4期166-170,共5页
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gra... 当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。 展开更多
关键词 新词识别 n-gram算法 构词规则 中文分词 碎片库 召回率
下载PDF
基于分布式内存计算的三元N-gram算法的并行化研究
5
作者 龚永罡 田润琳 +1 位作者 廉小亲 吴萌 《计算机产品与流通》 2019年第3期60-60,共1页
面对新媒体平台每日高达百万篇需处理的语料信息,提出了基于分布式内存计算模型的三元N-gram并行化算法的思想,基于分布式内存计算模型并行训练三元N-gram的算法,将数据信息和运算逻辑存储于内存中,有效缩减了Mapper到Reducer之间的传... 面对新媒体平台每日高达百万篇需处理的语料信息,提出了基于分布式内存计算模型的三元N-gram并行化算法的思想,基于分布式内存计算模型并行训练三元N-gram的算法,将数据信息和运算逻辑存储于内存中,有效缩减了Mapper到Reducer之间的传输的中间数据过程,减少了读写操作。在应用此算法对大规模语料库进行训练之后,结果表明此类算法对海量数据的处理能够发挥理想的效果,很大程度上解决了传统算法在处理海量数据集计算时间过长的问题。 展开更多
关键词 三元n-gram算法 分布式内存计算模型 并行化算法
下载PDF
基于词表和N-gram算法的新词识别实验 被引量:1
6
作者 曹艳 杜慧平 +1 位作者 刘竟 侯汉清 《中国索引》 2008年第1期49-54,共6页
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键... 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 展开更多
关键词 n-gram算法 未登录词 新词识别 停用词典 过滤词典
下载PDF
基于相似重复记录的N-Gram算法的改进与应用 被引量:3
7
作者 王旭东 段敬 +4 位作者 温志坚 楼颖稚 陈伟 孔德云 黄豆豆 《现代计算机》 2018年第17期78-82,97,共6页
通过研究相似重复记录的数据清洗算法,在对N-Gram算法进行深入分析与研究后,指出其不足之处,并在此基础上进行改进并加以应用。实验结论证明,改进后的N-Gram算法无论是在查全率、查准率,还是运行速率上都得以大幅度提升。
关键词 数据清洗 n-gram算法 中文字段匹配算法 相似重复记录 滑动窗口
下载PDF
基于N-Gram和动态滑动窗口的改进余弦相似度算法研究 被引量:3
8
作者 张洪 钟凯迪 +4 位作者 柴源 魏济 吴艳 谭锦涛 叶文韬 《成都大学学报(自然科学版)》 2019年第2期163-166,共4页
为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根... 为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形. 展开更多
关键词 余弦相似度算法 n-gram算法 数据清洗 动态滑动窗口
下载PDF
PEIF:基于并行机群的大数据实体识别算法 被引量:4
9
作者 李明达 王宏志 +2 位作者 张佳程 李建中 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期211-220,共10页
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,... 数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别. 展开更多
关键词 实体识别 大数据 并行处理方法 Hyracks平台 n-gram算法
下载PDF
地方志引书挖掘系统的设计与实现 被引量:7
10
作者 白振田 衡中青 侯汉清 《图书馆杂志》 CSSCI 北大核心 2008年第8期50-54,58,共6页
古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要意义。本文以地方志资料汇编《方志物产》为语料,设计并构建了一个古籍引书挖掘系统。重点讨论了引书的模... 古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要意义。本文以地方志资料汇编《方志物产》为语料,设计并构建了一个古籍引书挖掘系统。重点讨论了引书的模式提取、N-gram分词识别等功能算法。 展开更多
关键词 古籍数字化整理 地方志 引书 内容挖掘 n-gram算法
下载PDF
基于信息传播特性的新词发现方法研究 被引量:3
11
作者 曹春萍 杨青林 《软件》 2020年第9期201-203,共3页
针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新... 针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新词统计方法。实验结果表明:提出的基于信息传播特性的新词发现方法在查准率、召回率都要比使用中文ICTCLAP9115分词方法分词更好,更具有优势。 展开更多
关键词 信息传播 新词 发现方法 n-gram算法
下载PDF
邮件病毒行为自动分析与特征库生成技术研究
12
作者 吉小鹏 《新型工业化》 2020年第4期104-108,共5页
工业互联网的快速发展,使得电子邮件的使用频率显著提高,与此对应的邮件病毒也不断更新,使得邮件病毒的防治变得日益复杂。针对日益复杂的工业互联网邮件病毒防治工作,本文采用N-Gram算法构建了工业互联网邮件病毒特征库,在特征库基础... 工业互联网的快速发展,使得电子邮件的使用频率显著提高,与此对应的邮件病毒也不断更新,使得邮件病毒的防治变得日益复杂。针对日益复杂的工业互联网邮件病毒防治工作,本文采用N-Gram算法构建了工业互联网邮件病毒特征库,在特征库基础上基于疾病传播模型构建了邮件病毒的传播和免疫自动行为。在五种不同工业互联网病毒类型的大量样本上生成了邮件病毒特征库,并根据工业互联网邮件病毒特征库分析了邮件病毒的自动传播和自动免疫过程。实验结果表明,本文方法生成的特征库具有良好的邮件病毒检测性能,并且对邮件病毒行为的分析能够更好的满足实际的邮件病毒防治工作。 展开更多
关键词 邮件病毒 传播行为 免疫行为 病毒特征库 n-gram算法
下载PDF
基于BiLSTM-CRF的细粒度知识图谱问答 被引量:11
13
作者 张楚婷 常亮 +2 位作者 王文凯 陈红亮 宾辰忠 《计算机工程》 CAS CSCD 北大核心 2020年第2期41-47,共7页
基于知识图谱的问答中问句侯选主实体筛选步骤繁琐,且现有多数模型忽略了问句与关系的细粒度相关性。针对该问题,构建基于BiLSTM-CRF的细粒度知识图谱问答模型,其中包括实体识别和关系预测2个部分。在实体识别部分,利用BiLSTM-CRF模型... 基于知识图谱的问答中问句侯选主实体筛选步骤繁琐,且现有多数模型忽略了问句与关系的细粒度相关性。针对该问题,构建基于BiLSTM-CRF的细粒度知识图谱问答模型,其中包括实体识别和关系预测2个部分。在实体识别部分,利用BiLSTM-CRF模型提高准确性,并将N-Gram算法与Levenshtein距离算法相结合用于候选主实体的筛选,简化候选主实体筛选过程。在关系预测部分,分别应用注意力机制和卷积神经网络从语义层次和词层次捕获问句与关系之间的相互联系。使用FreeBase中的FB2M和FB5M评估数据集进行实验,结果表明,与针对单一关系的问答方法相比,该模型对于实体关系对的预测准确率更高。 展开更多
关键词 实体识别 关系预测 知识图谱 卷积神经网络 问答模型 n-gram算法
下载PDF
基于多特征随机森林的恶意代码检测 被引量:6
14
作者 李劭杰 王晨 史崯 《计算机应用与软件》 北大核心 2020年第10期328-333,共6页
特征提取是恶意代码检测研究的重点内容,传统恶意代码特征提取以单一特征为主,恶意代码检测时效性差,特征提取滞后于病毒数量的发展。恶意软件源文件经过IDA反编译后生成.bytes文件和.asm文件,.asm文件可以从两个角度提取特征。通过N-G... 特征提取是恶意代码检测研究的重点内容,传统恶意代码特征提取以单一特征为主,恶意代码检测时效性差,特征提取滞后于病毒数量的发展。恶意软件源文件经过IDA反编译后生成.bytes文件和.asm文件,.asm文件可以从两个角度提取特征。通过N-Gram算法提取文本特征,可以将.asm文件图像化转化成为灰度图像。灰度图像的纹理特征通过灰度共生矩阵的不同参数来体现,颜色特征作为全局特征通过灰度直方图提取,最终结合随机森林算法进行分类。实验结果表明,多种特征相结合的检测方法,能极大程度地提高检验的准确率。 展开更多
关键词 灰度图 灰度直方图 灰度共生矩阵 n-gram算法 随机森林
下载PDF
基于深度机器学习的海事裁判文书数据挖掘与裁判预测
15
作者 甘正男 苏朝阳 徐琪 《智能物联技术》 2022年第3期7-11,43,共6页
法律判决预测是基于法律法条规定以及对大量判例的案件信息与法律后果之间关系的科学分析,从而对尚未判决案件法律后果的一种或然性预测预判。本文以中国裁判文书网2015年~2020年的海事裁判文书为数据挖掘对象,通过OCR图像文本识别,并... 法律判决预测是基于法律法条规定以及对大量判例的案件信息与法律后果之间关系的科学分析,从而对尚未判决案件法律后果的一种或然性预测预判。本文以中国裁判文书网2015年~2020年的海事裁判文书为数据挖掘对象,通过OCR图像文本识别,并将非结构化数据转换为结构化数据,然后依据CRISP-DM的文本挖掘流程,在运用N-Gram算法去除多余虚词的基础上,运用关键词权重分析法(TF-IDF)和关联性分析法,对海事判决书中的关键词进行分类和数据转换,再通过对案件全流程模块化拆分、关键词触发集合建模的关联分析及匹配结果,针对一定量的训练数据通过相关分析和回归分析来输出预测裁判结果。 展开更多
关键词 裁判预测 AI深度学习 海事判例 n-gram算法 TF-IDF算法
下载PDF
基于N-Gram文本表达的新闻领域关键词词典构建研究 被引量:3
16
作者 吕美香 何琳 +2 位作者 李玥 杨敏 张越 《情报科学》 CSSCI 北大核心 2010年第4期571-574,615,共5页
在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全... 在互联网环境下,新闻数量以海量方式增长,对其进行智能化分类、知识提取处理迫在眉睫。基于此,主要研究了如何在原有关键词词典的基础上,提出一种发现新词的方法,并将提取出的未登录词添加到原始词库中,从而构造一部数量适当、覆盖面全、更新方便的关键词词典。基于大规模的新闻语料作为实验资源,采用了一种利用N-gram算法切分,用关键词抽词词典、停用词词典等过滤筛选非专名的新词识别方法。实验结果的测评表明这一方法是简便易行的。 展开更多
关键词 新闻领域 n-gram算法 新词识别 关键词词典 停用词典
原文传递
Dynamic alarm prediction for critical alarms using a probabilistic model
17
作者 Jianfeng Zhu Chunli Wang +2 位作者 Chuankun Li Xinjiang Gao Jinsong Zhao 《Chinese Journal of Chemical Engineering》 SCIE EI CAS CSCD 2016年第7期881-885,共5页
Alarm systems play important roles for the safe and efficient operation of modern industrial plants. Critical alarms are configured with a higher priority and are safety related among many other alarms. If critical al... Alarm systems play important roles for the safe and efficient operation of modern industrial plants. Critical alarms are configured with a higher priority and are safety related among many other alarms. If critical alarms can be predicted in advance, the operator will have more time to prevent them from happening. In this paper,we present a dynamic alarm prediction algorithm, which is a probabilistic model that utilizes alarm data from distributed control system, to calculate the occurrence probability of critical alarms. It accounts for the local interdependences among the alarms using the n-gram model, which occur because of the nonlinear relationships between variables. Finally, the dynamic alarm prediction algorithm is applied to an industrial case study. 展开更多
关键词 Dynamic alarm predictionAlarm managementThe n-gram modelAlarm sequence
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部