期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于信息熵与闭合频繁序列的密码协议逆向方法
1
作者 梁晨 洪征 +1 位作者 吴礼发 吉庆兵 《计算机科学》 CSCD 北大核心 2024年第3期326-334,共9页
未知密码协议被广泛用于敏感信息的安全传输,对其进行逆向分析对攻防双方都具有重要意义。为从网络流量中推断结构复杂的密码协议格式,提出了一种基于信息熵与闭合频繁序列的密码协议逆向方法。利用字节信息熵划分报文的明文域与密文域... 未知密码协议被广泛用于敏感信息的安全传输,对其进行逆向分析对攻防双方都具有重要意义。为从网络流量中推断结构复杂的密码协议格式,提出了一种基于信息熵与闭合频繁序列的密码协议逆向方法。利用字节信息熵划分报文的明文域与密文域,使用BIDE算法挖掘闭合频繁序列,划分报文的动态域和静态域;设计了一种长度域识别算法,对报文进行字节片切,将片切后的字段值与长度域取值集合进行循环比对,实现了密码协议中多种形式的长度域识别;设计了启发策略,用于对加密套件、加密算法等密码协议特有的关键字段进行语义识别。实验结果表明,该方法可以有效地对密码协议进行域划分,提取密码协议的格式,并且在长度域识别和密码协议特有关键字段的语义识别上优于现有方法。 展开更多
关键词 协议逆向 密码协议 信息熵 闭合频繁序列 网络流量 语义分析
下载PDF
基于信息熵的加权频繁模式树构造算法研究 被引量:3
2
作者 赵旭俊 蔡江辉 马洋 《模式识别与人工智能》 EI CSCD 北大核心 2014年第1期28-34,共7页
关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此... 关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此在兼顾整体权重的同时,突出重要项目.在此基础上,采用加权频繁模式树来提取加权频繁模式,并给出加权频繁模式树的构造方法,最后以国家天文台提供的天体光谱数据及机械装备EDEM数据作为数据集,实验验证算法的高效率. 展开更多
关键词 关联规则 信息熵 频繁模式
下载PDF
基于联合意义度量的Top-K图模式挖掘 被引量:3
3
作者 刘勇 高宏 李建中 《计算机学报》 EI CSCD 北大核心 2010年第2期215-230,共16页
提出了一个新的研究问题:如何挖掘Top-K图模式,联合起来使某个意义度量最大化.利用信息论的概念,给出了两个具体问题的定义MES和MIGS,并证明它们是NP-难.提出了两个高效算法Greedy-TopK和Clus-ter-TopK.Greedy-TopK先产生频繁子图,然后... 提出了一个新的研究问题:如何挖掘Top-K图模式,联合起来使某个意义度量最大化.利用信息论的概念,给出了两个具体问题的定义MES和MIGS,并证明它们是NP-难.提出了两个高效算法Greedy-TopK和Clus-ter-TopK.Greedy-TopK先产生频繁子图,然后按增量贪心方式选择K个图模式.Cluster-TopK先挖掘频繁子图的一个代表模式集合,然后从代表模式中按增量贪心方式选择K个图模式.当意义度量满足submodular性质时,Greedy-TopK能提供近似比保证.Cluster-TopK没有近似比保证,但比Greedy-TopK更高效.实验结果显示,在结果可用性方面,文中提出的Top-K挖掘优于传统的Top-K挖掘.Cluster-TopK比Greedy-TopK快至少一个数量级.而且,在质量和可用性方面,Cluster-TopK的挖掘结果非常类似于Greedy-TopK的挖掘结果. 展开更多
关键词 图挖掘 图数据库 频繁子图 代表模式 联合熵 信息增益
下载PDF
一种基于交叉熵的top-k频繁项集挖掘算法
4
作者 宋威 郑川龙 《郑州大学学报(理学版)》 北大核心 2022年第4期27-33,共7页
通过指定期望结果项集数量挖掘top-k频繁项集,可解决频繁项集挖掘中支持度阈值难以设定的问题。由于能在较短的时间内得到足够多的精确结果,因此利用启发式方法挖掘项集的工作受到了越来越多的关注,但利用启发式方法来挖掘top-k频繁项... 通过指定期望结果项集数量挖掘top-k频繁项集,可解决频繁项集挖掘中支持度阈值难以设定的问题。由于能在较短的时间内得到足够多的精确结果,因此利用启发式方法挖掘项集的工作受到了越来越多的关注,但利用启发式方法来挖掘top-k频繁项集却鲜有研究。提出了一种基于交叉熵的top-k频繁项集挖掘算法KCE。首先,给出了将交叉熵应用于top-k频繁项集挖掘的建模方法;其次,提出了基于过滤支持度的搜索空间剪枝策略;第三,设计了利用按位交叉来产生下一代项集的策略,以提高样本的多样性。实验结果表明,KCE算法在运行时间和空间消耗上都有优势,且挖掘结果的平均精度在95%以上。 展开更多
关键词 数据挖掘 top-k频繁项集 交叉熵 过滤支持度 按位交叉
下载PDF
基于频率共现熵的跨语言网页自动分类研究 被引量:3
5
作者 柯丽 王明文 +2 位作者 何世柱 黎佳 罗远胜 《江西师范大学学报(自然科学版)》 CAS 北大核心 2011年第3期240-245,共6页
研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分... 研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能. 展开更多
关键词 跨语言 网页分类 频率共现熵 贝叶斯分类 自适应贝叶斯分类
下载PDF
Hadoop环境下基于并行熵的FIUT算法挖掘 被引量:6
6
作者 晏依 徐苏 《计算机工程与设计》 北大核心 2019年第3期685-690,787,共7页
针对传统频繁项集挖掘算法效率低下的问题,提出基于Hadoop平台的并行BMR-FIUT算法。通过引入FIU-Tree(frequent items ultrametric tree)结构挖掘频繁项集,避免传统算法的缺陷;改进FIUT算法的分解过程,使之适应于Map-Reduce框架下的并... 针对传统频繁项集挖掘算法效率低下的问题,提出基于Hadoop平台的并行BMR-FIUT算法。通过引入FIU-Tree(frequent items ultrametric tree)结构挖掘频繁项集,避免传统算法的缺陷;改进FIUT算法的分解过程,使之适应于Map-Reduce框架下的并行计算,达到并行化的目的;利用并行熵作为集群系统的负载均衡度量,使系统尽可能在各节点间合理分发数据以平衡负载。实验结果表明,BMR-FIUT算法能够有效减少并行化过程中节点负载倾斜的问题,较现有的PFP-Growth算法具有更好的性能,适用于海量数据挖掘。 展开更多
关键词 数据挖掘 频繁项集 MapReduce编程模型 FIUT算法 并行熵 负载均衡
下载PDF
用于网络新闻热点识别的热点新词发现 被引量:5
7
作者 王煜 徐建民 《计算机应用》 CSCD 北大核心 2020年第12期3513-3519,共7页
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中... 通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。 展开更多
关键词 热点新词 FP-TREE 逐点互信息(PMI) 邻接熵 时间特征
下载PDF
基于频繁模式挖掘的接触网故障关联规则推荐模型 被引量:1
8
作者 宇占军 《电气化铁道》 2021年第2期41-45,共5页
接触网作为电力机车的动力传输通道,保障其安全稳定运行至关重要。近年来,各铁路局相继建立了接触网故障数据库,从大量故障数据中寻找有用信息并指导运维。本文基于Apriori算法框架,将频繁模式挖掘技术应用到接触网故障数据的分析中;结... 接触网作为电力机车的动力传输通道,保障其安全稳定运行至关重要。近年来,各铁路局相继建立了接触网故障数据库,从大量故障数据中寻找有用信息并指导运维。本文基于Apriori算法框架,将频繁模式挖掘技术应用到接触网故障数据的分析中;结合维修周期故障分类模型,将逐条记录的故障数据转换为适合挖掘的数据形式,并应用布尔映射矩阵通过单次扫描数据库实现挖掘算法;针对挖掘结果中可能出现的大量关联规则,提出用熵权法对关联规则常用的多个参数进行综合评价,进而得到了用量化指标对关联规则进行推荐的模型。 展开更多
关键词 接触网 频繁模式挖掘 熵权法 维修策略
下载PDF
基于核密度估计的时间序列多模式发现 被引量:2
9
作者 陈晓云 《山东大学学报(工学版)》 CAS 北大核心 2011年第5期46-52,共7页
现有时间序列频繁模式或异常模式发现算法均以发现二者之一为目的,且多数采用硬距离阈值策略。为达到同时发现频繁模式和异常模式的目的,提出时间序列集频繁模式和异常模式发现算法FAP。FAP算法采用高斯核密度作为模式的支持度量,使用... 现有时间序列频繁模式或异常模式发现算法均以发现二者之一为目的,且多数采用硬距离阈值策略。为达到同时发现频繁模式和异常模式的目的,提出时间序列集频繁模式和异常模式发现算法FAP。FAP算法采用高斯核密度作为模式的支持度量,使用最小密度熵方法选择高斯核函数的带宽参数,进而避免了硬距离阈值策略的不足,实现了时间序列多模式发现。因为现实中的时间序列数据集规模较大且常含有噪声,所以FAP采用Haar小波变换压缩原始时间序列并过滤噪声。用来自UCR的数据集测试FAP算法,实验数据集的频繁模式与异常模式均能被正确发现。 展开更多
关键词 时间序列 频繁模式 异常模式 核密度估计
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部