期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于特征融合的恶意软件分类算法研究
1
作者 陶文伟 吴金宇 +4 位作者 张富川 曹扬 吴昊 唐瑛 王宝会 《网络新媒体技术》 2023年第3期20-26,共7页
目前对于恶意软件的分析大多是基于特征提取的方式,通过提取恶意软件的操作码、PE结构、汇编码、字符串以及捕获的动态行为信息等特征,使用机器学习、深度学习算法学习特征实现恶意软件的分类。但是由于恶意软件的各种变形和加密技术的... 目前对于恶意软件的分析大多是基于特征提取的方式,通过提取恶意软件的操作码、PE结构、汇编码、字符串以及捕获的动态行为信息等特征,使用机器学习、深度学习算法学习特征实现恶意软件的分类。但是由于恶意软件的各种变形和加密技术的日益成熟,使得特征选择和特征提取变得越来越困难,所以需要有效的特征提取方法和分类算法来对抗这些复杂恶意软件。首先分析了国内外针对特征融合在恶意软件分类方面的现状,提出了现阶段存在的问题。然后收集数据集并进行预处理和特征提取,其中动态特征提取是通过搭建Cuckoo沙箱捕获动态API信息并使用TF-IDF方法提取关键API行为特征,静态特征提取则对恶意软件进行反汇编并提取静态操作码信息,利用N-gram、Apriori及信息增益方法提取重要操作码组合特征,然后将动静态特征融合并使用因子分解机作为恶意软件分类算法对特征之间的交互影响建模,最后恶意软件的分类准确率和召回率达到95%以上。 展开更多
关键词 恶意软件 特征融合 分类 TF-IDF N-GRAM
下载PDF
基于系统调用序列学习的内核模糊测试
2
作者 张阳 范俊杰 +2 位作者 孙晓山 张颖君 程亮 《计算机系统应用》 2023年第9期19-31,共13页
操作系统内核是计算机系统中最基本的软件组件,它控制和管理计算机硬件资源,并提供访问和管理其他应用程序所需的接口和服务.操作系统内核的安全性直接影响整个计算机系统的稳定性和可靠性.内核模糊测试是一种高效、准确的安全漏洞检测... 操作系统内核是计算机系统中最基本的软件组件,它控制和管理计算机硬件资源,并提供访问和管理其他应用程序所需的接口和服务.操作系统内核的安全性直接影响整个计算机系统的稳定性和可靠性.内核模糊测试是一种高效、准确的安全漏洞检测方法.然而目前内核模糊测试工作中,存在系统调用间关系的计算开销过大且容易误判,以及系统调用序列构造方式缺乏合理能量分配以至于很难探索低频系统调用的问题.本文提出以N-gram模型学习系统调用间关系,根据系统调用的出现频次信息和TF-IDF信息优先探索出现频次低或者TF-IDF值高的系统调用.我们以极低的开销,在Linux 4.19和5.19版本的24 h实验中分别提升了15.8%、14.7%的覆盖率.此外,我们挖掘到了一个已知CVE (CVE-2022-3524)、8个新崩溃,其中一个获得了CNNVD编号(CNNVD-2023-84723975). 展开更多
关键词 内核模糊测试 N-GRAM TF-IDF 系统安全 系统调用
下载PDF
基于词嵌入的源码相似度研究 被引量:1
3
作者 钱程 谢春丽 +1 位作者 王梦琦 权雷 《软件导刊》 2021年第7期97-101,共5页
源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究。为解决此类问题,在词嵌入基础上... 源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究。为解决此类问题,在词嵌入基础上提出结合TF-IDF和Word2vec的向量空间模型,利用向量间距离衡量代码间的相似性,融合代码的语义信息和统计信息。实验结果表明,相比于传统基于统计的方法,该模型效果提高了15%。 展开更多
关键词 N-GRAM TF-IDF Word2Vec 词嵌入 代码相似度
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
4
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 N-GRAM模型 TF/IDF
下载PDF
青刺果德温特专利的专业性主题聚类
5
作者 陈一 《计算机时代》 2022年第7期33-35,共3页
专利文本会涉及不同学科领域的专业词汇。本文以青刺果德温特专利数据为例,研究专利的专业性主题聚类。运用Word2vec对青刺果德温特专利文本训练词向量,再用N-Gram改进TF-IDF优化加权,然后用LDA做主题聚类。结果显示,青刺果专利的研究... 专利文本会涉及不同学科领域的专业词汇。本文以青刺果德温特专利数据为例,研究专利的专业性主题聚类。运用Word2vec对青刺果德温特专利文本训练词向量,再用N-Gram改进TF-IDF优化加权,然后用LDA做主题聚类。结果显示,青刺果专利的研究热点主要集中在青刺果的功能、应用、提取技术和成分分析方面,种植和包装方面的相关专利需要加强。 展开更多
关键词 专业性主题聚类 青刺果德温特专利 Word2vec n-gram-tf-idf LDA
下载PDF
一种基于聚类的微博关键词提取方法的研究与实现 被引量:9
6
作者 孙兴东 李爱平 李树栋 《信息网络安全》 2014年第12期27-31,共5页
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语... 文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。 展开更多
关键词 微博关键词 聚类算法 TF-IDF TextRank N-GRAM语言模型
下载PDF
基于特征权重的词向量文本表示模型 被引量:6
7
作者 蒋延杰 李云红 +3 位作者 苏雪平 张蕾涛 贾凯莉 陈锦妮 《西安工程大学学报》 CAS 2022年第1期108-114,共7页
针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题... 针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题,更好地捕捉了文本的语义和语序等局部信息,提高了文本特征表达能力。最后,通过20NewsGroup和5AbstractsGroup测试,分类准确率分别为85.93%、87.02%,验证了文本表示模型的有效性。 展开更多
关键词 TF-IDF模型 N-GRAM模型 Glove模型 文本表示
下载PDF
基于系统调用的交互式入侵检测系统设计与实现 被引量:2
8
作者 王丽媛 李晓风 +1 位作者 李玉洁 谭海波 《仪表技术》 2020年第3期1-5,11,共6页
随着计算机和互联网技术的发展,网络安全问题日益突出,入侵检测系统是维护网络安全的重要手段。目前,入侵检测系统中所开发的模型主要是基于静态签名信息或部分动态特征,不能及时响应入侵中的威胁及其变体。同时,入侵检测系统的研究主... 随着计算机和互联网技术的发展,网络安全问题日益突出,入侵检测系统是维护网络安全的重要手段。目前,入侵检测系统中所开发的模型主要是基于静态签名信息或部分动态特征,不能及时响应入侵中的威胁及其变体。同时,入侵检测系统的研究主要集中于解决模型开发问题,很少兼顾系统的交互设计。因此,基于完整的系统调用信息构建入侵检测模型并利用Web开发技术Django设计了一个交互式自动入侵检测系统。入侵检测系统包括检测模块和交互模块。检测模块实现对系统调用信息的向量化,解决样本表示问题,同时返回入侵检测结果;交互模块是用户与检测模块沟通的桥梁,能够将样本信息和检测结果反馈给用户。该系统具有高检测率,数据化和图形化的交互界面,操作简单,易于扩展。 展开更多
关键词 入侵检测 系统调用 N-GRAM模型 TF-IDF算法
下载PDF
面向在线评论的领域情感词典的自动构建 被引量:1
9
作者 宗宇 方朝阳 吴波 《现代计算机》 2021年第18期79-84,共6页
为改善现有传统情感词典无法精准捕捉乡村旅游情感词的情况,提出了一种面向在线评论自动构建乡村型情感词典的方法。以江西婺源为研究区域,利用网络爬虫采集了1.6万条微博评论。通过采用N-Gram语言模型和TF-IDF词频统计设置阈值筛选出... 为改善现有传统情感词典无法精准捕捉乡村旅游情感词的情况,提出了一种面向在线评论自动构建乡村型情感词典的方法。以江西婺源为研究区域,利用网络爬虫采集了1.6万条微博评论。通过采用N-Gram语言模型和TF-IDF词频统计设置阈值筛选出候选词集x,将传统HowNet情感词库作为借鉴指导,从候选词集x中人工筛选出y个词频较高且感情最为强烈的种子情感词(x>y)。通过逐一比较x与y词语间的相似度,设定阈值筛选出乡村旅游领域的情感词库。经校验证明,该词典取得了良好的效果。 展开更多
关键词 N-GRAM语言模型 TF-IDF 词义相似度 词典构建 乡村旅游
下载PDF
基于机器学习的恶意软件分析算法
10
作者 产院东 孟剑萍 +3 位作者 郭乔进 吴其华 梁中岩 胡杰 《信息化研究》 2022年第3期23-30,共8页
随着网络的快速发展,大规模恶意软件的自动化攻击已经成为网络攻击的主要形式,并且随着代码混淆、变形和多态性等技术的增强,恶意软件的形态越来越复杂。在这种情况下,为保护IT基础设施的安全,亟需开发更高效、智能的恶意软件检测方法... 随着网络的快速发展,大规模恶意软件的自动化攻击已经成为网络攻击的主要形式,并且随着代码混淆、变形和多态性等技术的增强,恶意软件的形态越来越复杂。在这种情况下,为保护IT基础设施的安全,亟需开发更高效、智能的恶意软件检测方法。文章研究了一种基于N元文法(N-gram)和机器学习的恶意软件检测方法,使用沙箱动态分析技术来提取恶意软件的关键危害指标,并用N-gram算法对危害指标建立特征集合,同时加入TF-IDF算法用于筛选出关键的N-gram特征。最后,使用各种有监督的机器学习分类模型,包括朴素贝叶斯、决策树、随机森林以及逻辑回归,来训练N-gram特征集合。训练得出的机器学习分类器,可辅助安全分析人员进行恶意软件的分析工作,提高恶意软件分析的效率,降低恶意软件分析的成本。 展开更多
关键词 恶意软件 机器学习 动态检测 N-GRAM TF-IDF
下载PDF
基于深度机器学习的海事裁判文书数据挖掘与裁判预测
11
作者 甘正男 苏朝阳 徐琪 《智能物联技术》 2022年第3期7-11,43,共6页
法律判决预测是基于法律法条规定以及对大量判例的案件信息与法律后果之间关系的科学分析,从而对尚未判决案件法律后果的一种或然性预测预判。本文以中国裁判文书网2015年~2020年的海事裁判文书为数据挖掘对象,通过OCR图像文本识别,并... 法律判决预测是基于法律法条规定以及对大量判例的案件信息与法律后果之间关系的科学分析,从而对尚未判决案件法律后果的一种或然性预测预判。本文以中国裁判文书网2015年~2020年的海事裁判文书为数据挖掘对象,通过OCR图像文本识别,并将非结构化数据转换为结构化数据,然后依据CRISP-DM的文本挖掘流程,在运用N-Gram算法去除多余虚词的基础上,运用关键词权重分析法(TF-IDF)和关联性分析法,对海事判决书中的关键词进行分类和数据转换,再通过对案件全流程模块化拆分、关键词触发集合建模的关联分析及匹配结果,针对一定量的训练数据通过相关分析和回归分析来输出预测裁判结果。 展开更多
关键词 裁判预测 AI深度学习 海事判例 N-Gram算法 TF-IDF算法
下载PDF
一种面向财务文本分类的TF-IDF改进算法
12
作者 孙德华 孙晨 《现代信息科技》 2020年第18期107-111,共5页
结合财务文本特征,对TF-IDF方法在应用到财务文本分类时的不足进行了分析,提出了一种新的特征词权重计算方法(SNGTI-LFDF)。该算法以TF-IDF方法为基础,引入停用词失效的N-Gram方法和特征词位置词频因子,保留特征词位置信息并改善了特征... 结合财务文本特征,对TF-IDF方法在应用到财务文本分类时的不足进行了分析,提出了一种新的特征词权重计算方法(SNGTI-LFDF)。该算法以TF-IDF方法为基础,引入停用词失效的N-Gram方法和特征词位置词频因子,保留特征词位置信息并改善了特征词的权重分配。采用朴素贝叶斯方法对分类性能进行了验证,实验结果表明,相对于TF-IDF和同类改进算法TF-IDF-DL,SNGTI-LFDF方法取得了更高的准确率、召回率和F1值。因此该算法在能较好地提高财务文本分类性能。 展开更多
关键词 TF-IDF N-GRAM 位置因子 SNGTI-LFDF 财务文本分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部