-
题名基于特征融合的恶意软件分类算法研究
- 1
-
-
作者
陶文伟
吴金宇
张富川
曹扬
吴昊
唐瑛
王宝会
-
机构
中国南方电网有限责任公司
北京航空航天大学软件学院
-
出处
《网络新媒体技术》
2023年第3期20-26,共7页
-
文摘
目前对于恶意软件的分析大多是基于特征提取的方式,通过提取恶意软件的操作码、PE结构、汇编码、字符串以及捕获的动态行为信息等特征,使用机器学习、深度学习算法学习特征实现恶意软件的分类。但是由于恶意软件的各种变形和加密技术的日益成熟,使得特征选择和特征提取变得越来越困难,所以需要有效的特征提取方法和分类算法来对抗这些复杂恶意软件。首先分析了国内外针对特征融合在恶意软件分类方面的现状,提出了现阶段存在的问题。然后收集数据集并进行预处理和特征提取,其中动态特征提取是通过搭建Cuckoo沙箱捕获动态API信息并使用TF-IDF方法提取关键API行为特征,静态特征提取则对恶意软件进行反汇编并提取静态操作码信息,利用N-gram、Apriori及信息增益方法提取重要操作码组合特征,然后将动静态特征融合并使用因子分解机作为恶意软件分类算法对特征之间的交互影响建模,最后恶意软件的分类准确率和召回率达到95%以上。
-
关键词
恶意软件
特征融合
分类
TF-IDF
N-GRAM
-
Keywords
malware
feature fusion
classification
TF-IDF
N-gram
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于系统调用序列学习的内核模糊测试
- 2
-
-
作者
张阳
范俊杰
孙晓山
张颖君
程亮
-
机构
中国科学院大学
中国科学院软件研究所可信计算与信息保障实验室
-
出处
《计算机系统应用》
2023年第9期19-31,共13页
-
基金
国家自然科学基金(62072448)。
-
文摘
操作系统内核是计算机系统中最基本的软件组件,它控制和管理计算机硬件资源,并提供访问和管理其他应用程序所需的接口和服务.操作系统内核的安全性直接影响整个计算机系统的稳定性和可靠性.内核模糊测试是一种高效、准确的安全漏洞检测方法.然而目前内核模糊测试工作中,存在系统调用间关系的计算开销过大且容易误判,以及系统调用序列构造方式缺乏合理能量分配以至于很难探索低频系统调用的问题.本文提出以N-gram模型学习系统调用间关系,根据系统调用的出现频次信息和TF-IDF信息优先探索出现频次低或者TF-IDF值高的系统调用.我们以极低的开销,在Linux 4.19和5.19版本的24 h实验中分别提升了15.8%、14.7%的覆盖率.此外,我们挖掘到了一个已知CVE (CVE-2022-3524)、8个新崩溃,其中一个获得了CNNVD编号(CNNVD-2023-84723975).
-
关键词
内核模糊测试
N-GRAM
TF-IDF
系统安全
系统调用
-
Keywords
kernel fuzzing
N-gram
TF-IDF
system security
system call
-
分类号
TP311.53
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词嵌入的源码相似度研究
被引量:1
- 3
-
-
作者
钱程
谢春丽
王梦琦
权雷
-
机构
江苏师范大学智慧教育学院
江苏师范大学计算机科学与技术学院
-
出处
《软件导刊》
2021年第7期97-101,共5页
-
基金
国家自然科学基金项目(61502212)
江苏省高等学校大学生创新创业训练计划项目(201910320134Y)
2019年第一批谷歌支持教育部产学合作协同育人项目(2e317703-2af0-4ecb-ba7c-35e290356017)。
-
文摘
源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究。为解决此类问题,在词嵌入基础上提出结合TF-IDF和Word2vec的向量空间模型,利用向量间距离衡量代码间的相似性,融合代码的语义信息和统计信息。实验结果表明,相比于传统基于统计的方法,该模型效果提高了15%。
-
关键词
N-GRAM
TF-IDF
Word2Vec
词嵌入
代码相似度
-
Keywords
N-gram
TF-IDF
Word2Vec
word embedding
code similarity
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于N-gram统计模型的搜索引擎中文纠错
被引量:7
- 4
-
-
作者
陈智鹏
吕玉琴
刘华生
刘刚
屠辉
-
机构
北京邮电大学电子工程学院
-
出处
《中国电子科学研究院学报》
2009年第3期323-326,共4页
-
文摘
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。
-
关键词
搜索引擎
输入纠错
N-GRAM模型
TF/IDF
-
Keywords
search engine
spelling correction
N-grams model
TF/IDF weight
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名青刺果德温特专利的专业性主题聚类
- 5
-
-
作者
陈一
-
机构
昆明理工大学管理与经济学院
-
出处
《计算机时代》
2022年第7期33-35,共3页
-
基金
国家自然科学地区基金项目“青刺果多糖修复表皮通透屏障的分子机制研究”(81960744)。
-
文摘
专利文本会涉及不同学科领域的专业词汇。本文以青刺果德温特专利数据为例,研究专利的专业性主题聚类。运用Word2vec对青刺果德温特专利文本训练词向量,再用N-Gram改进TF-IDF优化加权,然后用LDA做主题聚类。结果显示,青刺果专利的研究热点主要集中在青刺果的功能、应用、提取技术和成分分析方面,种植和包装方面的相关专利需要加强。
-
关键词
专业性主题聚类
青刺果德温特专利
Word2vec
n-gram-tf-idf
LDA
-
Keywords
professional subject clustering
Derwent Innovation Index for Prinsepia utilis Royle
Word2vec
n-gram-tf-idf
LDA
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
G35
[文化科学—情报学]
-
-
题名一种基于聚类的微博关键词提取方法的研究与实现
被引量:9
- 6
-
-
作者
孙兴东
李爱平
李树栋
-
机构
国防科学技术大学计算机学院
-
出处
《信息网络安全》
2014年第12期27-31,共5页
-
基金
国家科技支撑计划[2012BAH38B00]
国家自然科学基金[61202362
+1 种基金
61262057]
中国博士后科学基金[2013M542560]
-
文摘
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与Text Rank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。
-
关键词
微博关键词
聚类算法
TF-IDF
TextRank
N-GRAM语言模型
-
Keywords
TF-IDF
TextRank
micro-blog keyword
clustering algorithm
TF-IDF
TextRank
n-gram language model
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征权重的词向量文本表示模型
被引量:6
- 7
-
-
作者
蒋延杰
李云红
苏雪平
张蕾涛
贾凯莉
陈锦妮
-
机构
北京市组织机构代码管理中心
西安工程大学电子信息学院
-
出处
《西安工程大学学报》
CAS
2022年第1期108-114,共7页
-
基金
国家自然科学基金(61902301)
西安市科技局高校人才服务企业项目(2019217114GXRC007CG008-GXYD7.13)。
-
文摘
针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题,更好地捕捉了文本的语义和语序等局部信息,提高了文本特征表达能力。最后,通过20NewsGroup和5AbstractsGroup测试,分类准确率分别为85.93%、87.02%,验证了文本表示模型的有效性。
-
关键词
TF-IDF模型
N-GRAM模型
Glove模型
文本表示
-
Keywords
TF-IDF model
N-Gram model
Glove model
text representation
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于系统调用的交互式入侵检测系统设计与实现
被引量:2
- 8
-
-
作者
王丽媛
李晓风
李玉洁
谭海波
-
机构
中国科学院合肥物质科学研究院
中国科学技术大学
-
出处
《仪表技术》
2020年第3期1-5,11,共6页
-
基金
安徽省科技重大专项(711245801052).
-
文摘
随着计算机和互联网技术的发展,网络安全问题日益突出,入侵检测系统是维护网络安全的重要手段。目前,入侵检测系统中所开发的模型主要是基于静态签名信息或部分动态特征,不能及时响应入侵中的威胁及其变体。同时,入侵检测系统的研究主要集中于解决模型开发问题,很少兼顾系统的交互设计。因此,基于完整的系统调用信息构建入侵检测模型并利用Web开发技术Django设计了一个交互式自动入侵检测系统。入侵检测系统包括检测模块和交互模块。检测模块实现对系统调用信息的向量化,解决样本表示问题,同时返回入侵检测结果;交互模块是用户与检测模块沟通的桥梁,能够将样本信息和检测结果反馈给用户。该系统具有高检测率,数据化和图形化的交互界面,操作简单,易于扩展。
-
关键词
入侵检测
系统调用
N-GRAM模型
TF-IDF算法
-
Keywords
intrusion detection
system call
N-gram model
TF-IDF algorithm
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名面向在线评论的领域情感词典的自动构建
被引量:1
- 9
-
-
作者
宗宇
方朝阳
吴波
-
机构
江西师范大学地理与环境学院
鄱阳湖湿地与流域研究教育部重点实验室
-
出处
《现代计算机》
2021年第18期79-84,共6页
-
基金
国家社科基金艺术学重大项目:革命文物保护利用实践经验与制度创新研究(No.19ZD27)
文化艺术和旅游研究项目信息化发展专项:基于VR/AR和智能匹配的陶瓷艺术品在线推荐、定制、体验和交易一体化云平台(No.xxhfzzx201907)。
-
文摘
为改善现有传统情感词典无法精准捕捉乡村旅游情感词的情况,提出了一种面向在线评论自动构建乡村型情感词典的方法。以江西婺源为研究区域,利用网络爬虫采集了1.6万条微博评论。通过采用N-Gram语言模型和TF-IDF词频统计设置阈值筛选出候选词集x,将传统HowNet情感词库作为借鉴指导,从候选词集x中人工筛选出y个词频较高且感情最为强烈的种子情感词(x>y)。通过逐一比较x与y词语间的相似度,设定阈值筛选出乡村旅游领域的情感词库。经校验证明,该词典取得了良好的效果。
-
关键词
N-GRAM语言模型
TF-IDF
词义相似度
词典构建
乡村旅游
-
Keywords
N-Gram Language Model
TF-IDF
Word Meaning Similarity
Dictionary Construction
Rural Tourism
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于机器学习的恶意软件分析算法
- 10
-
-
作者
产院东
孟剑萍
郭乔进
吴其华
梁中岩
胡杰
-
机构
中国电子科技集团公司第
-
出处
《信息化研究》
2022年第3期23-30,共8页
-
文摘
随着网络的快速发展,大规模恶意软件的自动化攻击已经成为网络攻击的主要形式,并且随着代码混淆、变形和多态性等技术的增强,恶意软件的形态越来越复杂。在这种情况下,为保护IT基础设施的安全,亟需开发更高效、智能的恶意软件检测方法。文章研究了一种基于N元文法(N-gram)和机器学习的恶意软件检测方法,使用沙箱动态分析技术来提取恶意软件的关键危害指标,并用N-gram算法对危害指标建立特征集合,同时加入TF-IDF算法用于筛选出关键的N-gram特征。最后,使用各种有监督的机器学习分类模型,包括朴素贝叶斯、决策树、随机森林以及逻辑回归,来训练N-gram特征集合。训练得出的机器学习分类器,可辅助安全分析人员进行恶意软件的分析工作,提高恶意软件分析的效率,降低恶意软件分析的成本。
-
关键词
恶意软件
机器学习
动态检测
N-GRAM
TF-IDF
-
Keywords
malware
machine learning
dynamic detection
N-gram
TF-IDF
-
分类号
TP301.4
[自动化与计算机技术—计算机系统结构]
-
-
题名基于深度机器学习的海事裁判文书数据挖掘与裁判预测
- 11
-
-
作者
甘正男
苏朝阳
徐琪
-
机构
中电海康集团有限公司
上海领港律师事务所
-
出处
《智能物联技术》
2022年第3期7-11,43,共6页
-
文摘
法律判决预测是基于法律法条规定以及对大量判例的案件信息与法律后果之间关系的科学分析,从而对尚未判决案件法律后果的一种或然性预测预判。本文以中国裁判文书网2015年~2020年的海事裁判文书为数据挖掘对象,通过OCR图像文本识别,并将非结构化数据转换为结构化数据,然后依据CRISP-DM的文本挖掘流程,在运用N-Gram算法去除多余虚词的基础上,运用关键词权重分析法(TF-IDF)和关联性分析法,对海事判决书中的关键词进行分类和数据转换,再通过对案件全流程模块化拆分、关键词触发集合建模的关联分析及匹配结果,针对一定量的训练数据通过相关分析和回归分析来输出预测裁判结果。
-
关键词
裁判预测
AI深度学习
海事判例
N-Gram算法
TF-IDF算法
-
Keywords
referee prediction
AI deep learning
maritime precedent
N-Gram algorithm
TF-IDF algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
D996.19
[政治法律—经济法学]
-
-
题名一种面向财务文本分类的TF-IDF改进算法
- 12
-
-
作者
孙德华
孙晨
-
机构
南京邮电大学计算机学院
-
出处
《现代信息科技》
2020年第18期107-111,共5页
-
文摘
结合财务文本特征,对TF-IDF方法在应用到财务文本分类时的不足进行了分析,提出了一种新的特征词权重计算方法(SNGTI-LFDF)。该算法以TF-IDF方法为基础,引入停用词失效的N-Gram方法和特征词位置词频因子,保留特征词位置信息并改善了特征词的权重分配。采用朴素贝叶斯方法对分类性能进行了验证,实验结果表明,相对于TF-IDF和同类改进算法TF-IDF-DL,SNGTI-LFDF方法取得了更高的准确率、召回率和F1值。因此该算法在能较好地提高财务文本分类性能。
-
关键词
TF-IDF
N-GRAM
位置因子
SNGTI-LFDF
财务文本分类
-
Keywords
TF-IDF
N-Gram
location factor
SNGTI-LFDF
financial text classification
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-