题名 界标窗口下数据流最大规范模式挖掘算法研究
被引量:4
1
作者
闻英友
王少鹏
赵宏
机构
东北大学计算机科学与工程学院
医学影像计算教育部重点实验室(东北大学)
内蒙古大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第1期94-110,共17页
基金
国家自然科学基金项目(60903159,61173153,61402096,61163011,61262082,61662054)
中央高校基本科研业务费专项资金项目(N110818001,N100218001,N130504007,N120104001)
+2 种基金
国家“八六三”高技术研究发展计划基金项目(2015AA016005)
沈阳市科技计划项目(1091176-1-00)
内蒙古自然科学基金项目(2015MS0612)~~
文摘
首次对界标窗口下数据流最大规范模式挖掘问题进行了研究.为了克服na6ve算法在处理该问题时不具有增量计算的缺点,提出了一种基于边界界标窗口技术的数据流最大规范模式挖掘(data stream maximal regular patterns mining based on boundary landmark window,DSMRM-BLW)算法.该算法将数据流上的第1个待处理窗口定义为边界界标窗口,使用na6ve算法对其进行处理;之后每个窗口上的最大规范模式都可以基于前一个窗口上的最大规范模式集合增量获得,可以克服na6ve算法的缺点.实验结果表明:DSMRM-BLW算法是处理界标窗口下数据流最大规范模式挖掘的有效方法,与na6ve算法相比,具有相同的执行结果,但时间与空间效率得到了很大的提高.
关键词
数据流
界标窗口
最大规范模式
增量计算
边界界标窗口 技术
Keywords
data stream
landmark window
maximal regular pattern
incremental calculation
boundary landmark window technology
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 挖掘数据流界标窗口Top-K频繁项集
被引量:6
2
作者
杨蓓
黄厚宽
机构
郑州大学信息工程学院
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第3期463-473,共11页
基金
国家"九七三"重点基础研究发展计划基金项目(2006CB705500)
国家"八六三"高技术研究发展计划基金项目(2007AA010408)
文摘
数据流频繁项集挖掘是目前数据挖掘与知识发现领域的热点研究课题,在许多领域有重要应用.然而支持度阈值的设定需要一定的领域知识,设置不当会给后续的分析处理带来很多困难和不必要的负担,因此挖掘数据流top-K频繁项集有重要意义.提出一个挖掘数据流界标窗口top-K频繁项集的动态增量近似算法TOPSIL-Miner,为此设计了存储流数据摘要信息的概要结构TOPSIL-Tree以及动态记录挖掘相关信息的树层最大支持度表MaxSL、项目序表OIL,TOPSET和最小支持度表MinSL等,并分析了与这些概要结构相关的挖掘特性.在此基础上研究算法的3种优化措施:1)剪枝当前数据流的平凡项集;2)挖掘过程中启发式自适应提升挖掘阈值;3)动态提升剪枝阈值.对算法的误差上界进行了分析研究.最后通过实验验证了算法的可行性、精确性和时空高效性.
关键词
数据挖掘
数据流
界标窗口
频繁项集
概要数据结构
Keywords
data mining
data stream
landmark window
frequent itemset
synopsis data structure
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 界标窗口中数据流频繁模式挖掘算法研究
被引量:2
3
作者
张广路
雷景生
吴兴惠
机构
海南师范大学数学与统计学院
南京邮电大学计算机学院
出处
《计算机工程》
CAS
CSCD
2012年第1期55-58,61,共5页
基金
海南省自然科学基金资助项目(610221
109002
+1 种基金
808155)
海南师范大学青年科研基金资助项目(QN0923)
文摘
数据流的流量太大会无法被整个存储,或被多次扫描。为此,在研究已有挖掘算法的基础上,提出一种界标窗口中数据流频繁模式挖掘算法DSMFP_LW。利用扩展前缀模式树存储全局临界频繁模式,实现单遍扫描数据流和数据增量更新。实验结果表明,与Lossy Counting算法相比,DSMFP_LW算法具有更好的时空效率。
关键词
界标窗口
频繁模式
数据流
DSMFP_LW算法
滑动窗口
Keywords
landmark window
frequent pattern
data stream
DSMFP_LW algorithm
sliding window
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于界标窗口的数据流频繁项集挖掘算法的改进
被引量:1
4
作者
吴媚
高玲
机构
山东师范大学信息科学与工程学院
出处
《山东师范大学学报(自然科学版)》
CAS
2014年第3期21-25,29,共6页
基金
国家自然科学基金资助项目(61170145,61373081)
教育部博士点基金资助项目(20113704110001)
+1 种基金
山东省自然科学基金资助项目(ZR2010FM021)
山东省科技攻关计划资助项目(2013GGX10125)
文摘
挖掘数据流中频繁项集的技术是当前研究的热点之一.笔者借鉴数据模型FP-tree的结构,提出改进的适应挖掘数据流完全频繁项集的方法:FP-NEW.算法预处理阶段保存生成的潜在频繁项并作为构造NFP-tree中的记录输入,用户可以通过设置时间权重等策略对存储结果进行剪枝处理,最终经过迭代挖掘界标窗口中的完全频繁项集.实验证明算法能够适应数据流频繁项集的挖掘,并且在时空效率以及挖掘准确性上有一定优势.
关键词
数据挖掘
数据流
界标窗口
FP—tree
时间权重
Keywords
data mining
data stream
landmark window
FP - tree
weight of time
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 一种有效的数据流最大频繁模式挖掘算法
被引量:1
5
作者
毛伊敏
杨路明
李宏
陈志刚
刘立新
机构
中南大学信息科学与工程学院
江西理工大学应用科学学院
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第3期246-252,共7页
基金
国家自然科学基金(60573127)资助项目
文摘
针对频繁项集挖掘存在数据和模式冗余的问题,对数据流最大频繁项集挖掘算法进行了研究。针对目前典型的数据流最大频繁模式挖掘算法DSM-MFI存在消耗大量存储空间及执行效率低等问题,提出了一种挖掘数据流界标窗口内最大频繁项集的算法MMFI-DS,该算法首先采用SEFI-tree存储包含在不断增长的数据流中相关最大频繁项集的重要信息,同时删除SEFI-tree中大量不频繁项目,然后使用自顶向下和自底向上双向搜索策略挖掘界标窗口中一系列的最大频繁项集。理论分析与实验表明,该算法比DSM-MFI算法具有更高的效率,并能节省存储空间。
关键词
数据挖掘
数据流
界标窗口
频繁项集
最大频繁项集
Keywords
data mining, data stream, landmark window, frequent itemsets, maximal frequent itemsets
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于合并-分裂策略的近似等深直方图增量维护
被引量:1
6
作者
张龙波
李战怀
王勇
机构
山东理工大学计算机学院
西北工业大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2009年第8期182-184,共3页
基金
国家自然科学基金(60873196)
山东理工大学博士基金资助
文摘
直方图在数据库领域有着广泛的应用,是一种常用的概要数据结构生成方法。首先提出了一个基于数据流界标窗口模型的近似等深直方图构建维护算法框架,该算法框架通过桶的合并-分裂实现近似等深直方图的增量维护;然后对三种不同的桶合并-分裂策略进行了比较和讨论;最后对该算法框架和三种不同的桶合并-分裂策略进行了实验分析。
关键词
数据流
界标窗口 模型
概要数据结构
直方图
Keywords
Data stream, Landmark window model, Synopsis data structure, Histogram
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种改进的数据流最大频繁项集挖掘算法
被引量:4
7
作者
胡健
吴毛毛
机构
江西理工大学信息工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2014年第5期963-970,共8页
文摘
提出了一种基于DSM-MFI算法的改进算法DSMMFI-DS算法,它首先将事务数据按一定的全序关系存入DSFI-list列表中;然后按排序后的顺序存储到类似概要数据结构的树中;接着删除树中和DSFI-list列表中的非频繁项,同时删除窗口衰退支持数大的事务项;最后采用自顶向下和自底向上的双向搜索策略来挖掘数据流的最大频繁项集。通过用例分析和实验表明,该算法比DSM-MFI算法具有更好的执行效率。
关键词
数据挖掘
数据流
界标窗口
最大频繁项集
窗口 衰减支持数
Keywords
data mining
data stream
landmark windows
maximal frequent itemsets
window attenu-ation support count
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
题名 一种基于VFDT算法的同构XML流分类方法
8
作者
闫红
迟呈英
李付学
机构
营口理工学院机电工程系
辽宁科技大学软件学院
出处
《辽宁科技大学学报》
CAS
2015年第3期192-195,共4页
文摘
为了对动态XML文档流进行分类,以VFDT算法为核心,提出了一种针对相同结构的XML文档流分类算法,该算法将XML流中文档解析并用来动态地构造分类器。实验表明,该方法在XML流上数分类的精确度能够达到XML文档静态分类的水平。
关键词
XML数据流
分类算法
界标窗口
Keywords
XML stream
classification
landmark window
分类号
TP391
[自动化与计算机技术—计算机应用技术]