-
题名基于包含索引的频繁闭序列模式挖掘的新算法
被引量:1
- 1
-
-
作者
李晋宏
杨炳儒
宋威
侯伟
-
机构
北京科技大学信息工程学院
北方工业大学信息工程学院
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2009年第10期2485-2488,共4页
-
基金
国家自然科学基金(60675030)
北京市属市管高等学校人才强教计划资助课题
-
文摘
频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多。传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列。为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生。首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法。实验结果表明,该算法具有较高的效率。
-
关键词
数据挖掘
频繁闭项集
频繁闭序列模式
包含索引
-
Keywords
data mining
frequent closed itemset
frequent closed sequence pattern
subsume index
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于索引数组的频繁项集高效挖掘算法
被引量:1
- 2
-
-
作者
宋威
杨炳儒
徐章艳
韩彦岭
-
机构
北京科技大学信息工程学院
上海水产大学信息学院
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2008年第3期259-264,共6页
-
基金
国家自然科学基金(60675030,60463003)
中国博士后科学基金(20060390399)资助项目
-
文摘
为改进基于数据库垂直表示的频繁项集挖掘算法的性能,给出了用索引数组方法来改进计算性能的思路。提出了索引数组的概念及其计算方法,并提出了一种新的高效的频繁项集挖掘算法 Index-FIMiner。该算法大大减少了不必要的 tidset 求交及相应的频繁性判断操作,同时也论证了代表项可直接与其包含索引中的所有项集的组合进行连接,这些结果项集的支持度均与代表项的支持度相等,从而降低了这些频繁项集的处理代价,提高了算法的性能。实验结果表明,Index-FIMiner 算法具有较高的挖掘效率。
-
关键词
数据挖掘
关联规则
频繁项集
索引数组
包含索引
-
Keywords
data mining, association rule, frequent itemset, index array, subsume index
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种改进的频繁闭项集挖掘算法
被引量:11
- 3
-
-
作者
宋威
杨炳儒
徐章艳
高静
-
机构
北方工业大学信息工程学院
北京科技大学信息工程学院
广西师范大学计算机系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2008年第2期278-286,共9页
-
基金
国家自然科学基金项目(60675030)
国家科技成果重点推广计划基金项目(2003EC000001)
-
文摘
频繁闭项集惟一确定频繁项集且规模小得多,但挖掘频繁闭项集仍是很费时的.为提高挖掘效率,提出了一种改进的频繁闭项集挖掘算法DCI-Closed-Index.该算法用"索引数组"来组织数据,通过为每个项目增加包含索引,找到频繁共同出现的项集.利用二进制位图技术,给出了一个求包含索引的快速算法.然后根据项目在包含索引中出现的频率由高到低进行排序,并利用包含索引作为启发信息,合并同时出现且支持度相等的频繁项,得到初始生成子,从而大大缩小了搜索空间.同时利用索引数组对每一个生成子的前序集和后序集进行约简,得到新的、较小的约简前序集和约简后序集.并证明了约简前序集和后序集与原来的前序集和后序集的功能是一样的.从而减少了候选生成子的集合包含判断的操作.实验结果表明,该算法的性能优于其他主流算法.
-
关键词
数据挖掘
关联规则
频繁闭项集
索引数组
生成子
包含索引
-
Keywords
data mining
association rule
frequent closed itemset
index array
generator
subsume index
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于闭项集的无冗余关联规则挖掘方法
被引量:1
- 4
-
-
作者
宋威
高磊
李晋宏
-
机构
北方工业大学信息工程学院
-
出处
《北京交通大学学报》
CAS
CSCD
北大核心
2009年第6期91-96,共6页
-
基金
北京市市属高等学校人才强教计划项目
北方工业大学青年重点研究基金项目资助
北方工业大学博士科研启动基金项目资助
-
文摘
针对关联规则挖掘中存在的规则数量过多,难于理解和应用的问题,提出了一种基于闭项集的无冗余关联规则挖掘算法.首先,给出了无冗余关联规则的定义,并基于规则信任度的概念说明了该定义的合理性;其次,在生成子、闭项集和无冗余关联规则的基础上,给出了无冗余最小-最大精确规则基和无冗余最小-最大近似规则基的定义,并讨论了它们的剪枝策略.最后,讨论了生成子的性质及连接策略,并在包含索引的基础上,给出了一种宽度优先的无冗余关联规则挖掘算法.实验结果表明,本文提出的算法不仅可以发现规模较小的无冗余关联规则,提高了挖掘结果的可理解性,而且具有较高的挖掘效率.
-
关键词
数据挖掘
无冗余关联规则
生成子
闭项集
包含索引
-
Keywords
data mining
non-redundant association rule
generator
closed itemset
subsume index
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于列表结构的加权可擦除项集挖掘算法
被引量:1
- 5
-
-
作者
文凯
许萌萌
张许红
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第9期1676-1683,共8页
-
文摘
可擦除项集挖掘是从大规模产品数据库中挖掘出低利润项集,以解决厂商财务危机的方法。传统挖掘方法只处理静态产品数据库,在提取可擦除项集时忽略项本身的权值。为解决现有可擦除项集挖掘算法考虑条件单一、效率低下的问题,提出一种有效的在增量数据集上挖掘加权可擦除项集的算法WELI。该算法综合考虑了数据不断积累和项具有不同重要性的因素,采用简洁的列表结构减少内存消耗,利用权重条件进行项集修剪,并结合包含索引和差集思想简化增益的计算过程,以实现高效的增量挖掘操作。实验表明:就运行时间和内存消耗而言,该算法在稠密数据集和稀疏数据集上均具有良好的实验效果,就可伸缩性而言,该算法也优于以往算法。
-
关键词
数据挖掘
可擦除项集
增量挖掘
权重条件
包含索引
-
Keywords
data mining
erasable itemset
incremental mining
weighted conditions
subsume index
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于加权构造链表的频繁加权项集挖掘算法
被引量:1
- 6
-
-
作者
文凯
许萌萌
耿小海
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
-
出处
《计算机工程与设计》
北大核心
2020年第7期1920-1925,共6页
-
文摘
针对当前加权频繁项集挖掘算法建树复杂、挖掘效率较低的问题,提出基于加权构造链表(WB-list)的加权频繁项集挖掘BFWI算法。构造高度压缩信息的加权构造树(WB-tree),由B-list扩展结构WB-list得到节点信息,以集合枚举树作为搜索空间,结合包含索引减少项集连接次数并利用超集等价性质加快加权频繁项集的产生,提高算法的效率。实验结果表明,BFWI算法在时间和空间效率性能上优于IWS和WIT-FWIs-Diff算法,无论是处理稀疏数据还是稠密数据均得到良好效果。
-
关键词
加权构造链表
频繁加权项集挖掘
超集等价
包含索引
数据挖掘
-
Keywords
WB-list
frequent weighted itemsets mining
superset equivalence
subsume index
data mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于差异点集的频繁项集挖掘算法
被引量:3
- 7
-
-
作者
尹远
朱璐伟
文凯
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
中国电信股份有限公司重庆分公司
-
出处
《计算机工程与设计》
北大核心
2020年第3期716-720,共5页
-
文摘
针对目前频繁模式挖掘算法存在的建树复杂、挖掘效率低下等问题,提出一种基于差异点集(DiffNodeset)的Top-rank-k频繁模式挖掘DNTK算法。利用差集运算直接获取k(>2)项集的差异点集,避免项集多次复杂连接过程;结合一种线性时间复杂度连接方法和早期修剪策略,提出一种更为高效的1-项集连接方法,及时判定项集连接可行性;采用包含索引策略减少项集连接次数。实验结果表明,DNTK算法在时间和空间效率方面性能优于FAE和NTK算法,在不同类型数据集中进行频繁项集挖掘时有良好的效果。
-
关键词
频繁项集挖掘
差异点集
优先k项集
早期修剪
包含索引
-
Keywords
frequent pattern mining
DiffNodeset
Top-rank-k
early pruning
subsume index
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-