-
题名一种带约束条件的关联规则频繁集挖掘
被引量:4
- 1
-
-
作者
陈晓云
-
机构
福州大学数学系
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第2期205-208,共4页
-
基金
福建省教育厅科技项目(编号:JB02069)
福州大学科技发展基金(编号:XKJ(YM)0121)
-
文摘
论文先提出顺序单调约束和反顺序单调约束的概念并对其所包含的数学性质进行了讨论,在此基础上将其运用于频繁集挖掘过程中,给出挖掘基于顺序反单调性约束的频繁集算法和挖掘基于顺序单调约束的频繁集算法。带约束条件的关联规则频繁集挖掘可减少生成无意义的规则;同时,在频繁集生成过程,利用约束条件对搜索空间进行修剪,可提高挖掘算法的效率。
-
关键词
约束条件
关联规则
频繁集挖掘
数据挖掘
数据库
-
Keywords
association rules ,constraints,mining of frequently itemsets
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名近似反频繁集挖掘可计算复杂度分析与研究
- 2
-
-
作者
吕品
董武世
-
机构
武汉工程大学计算机科学与工程学院
湖北师范学院计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第24期179-180,186,共3页
-
基金
:湖北省自然科学基金资助项目(编号:2004ADA023)
-
文摘
数据挖掘作为应用于数据分析的工具,往往会从大型数据库中毫无保留地揭露某些重要信息,这些重要信息由于一定的原因不能向外界透露。所以可以通过构造具有与原始的频繁集一样的特征的虚拟数据集来替代频繁集挖掘结果。文章给出了一种近似的反频繁集挖掘方法,分析了它的可计算复杂度,得出了近似反频繁集挖掘是一个NP完全问题,提出了近似的反频繁集挖掘的下一步研究重点。
-
关键词
隐私保持
反频繁集挖掘
近似性
-
Keywords
preserve privacy,inverse frequent set mining,apporximation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名反频繁集挖掘可计算复杂性问题研究
- 3
-
-
作者
吕品
陈年生
董武世
-
机构
武汉工程大学计算机科学与工程学院
湖北师范学院计算机系
-
出处
《计算机技术与发展》
2006年第4期25-27,共3页
-
基金
湖北省自然科学基金资助项目(2004ADA023)
-
文摘
频繁集挖掘是总结二进制数据的重要技术,但如何找到一个二进制数据集与频繁集挖掘结果相一致却十分困难。文中从可计算复杂度的观点研究了频繁集的隐私保持。特别分析了反频繁挖掘问题的可计算复杂度。给出了决定是否存在与一个已知频繁集兼容的数据集是一个NP难度问题;当原始数据集d由6个集合组成时计算与已知频繁集兼容的数据集的数量是一个P类完全问题。
-
关键词
反频繁集挖掘
隐私保持
投影
-
Keywords
inverse frequent set mining
preserve privacy
projection
-
分类号
TP301.5
[自动化与计算机技术—计算机系统结构]
-
-
题名一种稳定的并行分布式频繁集挖掘算法及其应用
- 4
-
-
作者
秘中凯
姜晓红
雷蕾
-
机构
浙江大学计算机科学与技术学院
中国中医科学院中医药信息研究所
-
出处
《计算机应用与软件》
CSCD
2011年第3期83-85,124,共4页
-
基金
国家高技术研究发展计划项目(2006AA01A123)
杰出青年基金(NSFC60525202)
-
文摘
为解决大规模医药数据分析中的频繁集挖掘问题,提出一种稳定且具有良好扩展性的并行分布式算法P-FIM。该算法将挖掘任务分割成无相互依赖关系的同构子任务,实现有效的并行计算;并且充分利用Map/Reduce框架和集群环境的优势提高自身的鲁棒性和负载均衡能力。采用最大规模为512万条记录的中医药方剂数据进行算法性能分析实验,其结果表明,该算法在分布式集群环境中表现稳定,而且随着集群规模的增加其加速比接近线性。以P-FIM算法为基础设计实现的中医药数据相关性分析方案,可有效地从大规模临床数据中获得全面、可靠的病、症、药间相关性的信息。
-
关键词
数据挖掘
频繁集挖掘
Map/Reduce并行框架
医药数据分析
-
Keywords
Data mining Frequent itemset mining Map/Reduce parallel infrastructure Analysis of medicine data
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于0-1矩阵的频繁项集挖掘算法研究
被引量:8
- 5
-
-
作者
张月琴
-
机构
南京工业大学电子与信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第20期4662-4664,4667,共4页
-
文摘
通过对关联规则挖掘技术及经典算法Apriori的研究和分析,结合该算法存在的问题,提出了一种基于0-1矩阵的频繁集挖掘算法。该算法使扫描数据库的次数减为一次,有效率地降低I/O的存取时间,直接通过支持矩阵行向量的按位与运算来找出频繁集,而不需要Apriori算法中的自联接和减枝,提高了系统的运行效率。通过不断压缩支持矩阵,不仅减少了高次频繁集挖掘的时间,而且节约了存储空间。仿真实验表明,该算法是有效的。
-
关键词
数据挖掘
关联规则
频繁集挖掘
APRIORI算法
0-1矩阵
-
Keywords
data mining
association rules
frequent itemsets mining
Apriori algorithm
0-1 matrix
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名频繁模式集挖掘算法TFPDM的研究
- 6
-
-
作者
林红飞
庄卫华
-
机构
河海大学计算机及信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第32期160-163,共4页
-
文摘
受经典的Apriori算法思想和FP-Growth算法思想的启发,在结合两者优点的基础上提出了一种新的算法思想,它是对传统的FP-Growth算法的变形。该算法只需对数据库扫描一次,可以同时对全局和局部频繁模式集进行挖掘,减少了对发生增益数据库挖掘的费用。理论分析表明算法是有效的、可行的。
-
关键词
全局和局部频繁模式集
变形的频繁集挖掘算法
FP-GROWTH算法
APRIORI算法
-
Keywords
global and local frequent patterns
TFPDM
FP-Growth
Apriori
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于加权构造链表的频繁加权项集挖掘算法
被引量:1
- 7
-
-
作者
文凯
许萌萌
耿小海
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
-
出处
《计算机工程与设计》
北大核心
2020年第7期1920-1925,共6页
-
文摘
针对当前加权频繁项集挖掘算法建树复杂、挖掘效率较低的问题,提出基于加权构造链表(WB-list)的加权频繁项集挖掘BFWI算法。构造高度压缩信息的加权构造树(WB-tree),由B-list扩展结构WB-list得到节点信息,以集合枚举树作为搜索空间,结合包含索引减少项集连接次数并利用超集等价性质加快加权频繁项集的产生,提高算法的效率。实验结果表明,BFWI算法在时间和空间效率性能上优于IWS和WIT-FWIs-Diff算法,无论是处理稀疏数据还是稠密数据均得到良好效果。
-
关键词
加权构造链表
频繁加权项集挖掘
超集等价
包含索引
数据挖掘
-
Keywords
WB-list
frequent weighted itemsets mining
superset equivalence
subsume index
data mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名同类项的频繁高效用项集挖掘算法
被引量:2
- 8
-
-
作者
王斌
吕瑞瑞
周炜
-
机构
青岛理工大学信息与控制工程学院
-
出处
《计算机工程与设计》
北大核心
2019年第11期3142-3150,共9页
-
基金
国家自然科学基金项目(61502262)
-
文摘
现有高效用项集挖掘算法没有考虑分类挖掘的情况,针对这一不足,提出基于同类项的频繁高效用项集挖掘算法CMFHUI。把数据库中的所有项进行分类,给每一类赋予一个最小效用阈值,在这个基础上加上支持度约束,使得最终挖掘的项集既是频繁项集又是高效用项集。为进一步提高算法的挖掘效率,提出改进算法CMFHUI+。利用Mushroom和T10I4D100K数据集,结合4种不同的剪枝性质进行仿真实验,验证了这两种算法的有效性和可行性。
-
关键词
高效用项集
同类项
多最小效用阈值
支持度约束
频繁高效用项集挖掘
-
Keywords
high utility itemsets
similar items
multi-minimum utility thresholds
support constraint
frequent and high utility itemsets mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名最小支持度变化时分布式数据库中频繁项目集更新
- 9
-
-
作者
吉根林
赵斌
-
机构
南京师范大学计算机科学系
苏州大学省计算机信息处理重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第7期1233-1236,共4页
-
基金
国家自然科学基金(79970092)资助
江苏省重点实验室开放基金(KJS03064)资助
-
文摘
讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题,提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS.该算法能够充分利用已挖掘的结果,并且产生较少数量的候选频繁项目集,在求解全局频繁项目集过程中,候选局部频繁项目集支持数的通信量为O(n).将文章提出的算法用Java加以实现,并对算法性能进行了研究.实验结果表明这些算法是可行、有效的,并且具有较快的速度.
-
关键词
频繁项目集
关联规则
频繁项目集更新
分布式数据挖掘
KDD
-
Keywords
frequent itemsets
association rule
frequent itemsets updating
distributed data mining
KDD
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名C程序隐式规则自动提取与反例检测
- 10
-
-
作者
禹振
苏小红
王甜甜
马培军
-
机构
哈尔滨工业大学计算机科学与技术系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2013年第2期248-254,共7页
-
基金
国家自然科学基金(No.60673035)
高等学校博士学科点专项科研基金(No.20092302110040)
-
文摘
提出一种通用且高效的隐式规则自动提取与反例检测方法,使用频繁闭合项集挖掘技术挖掘包含多种程序元素的编程模式,然后由编程模式产生编程规则;引入正序规则的概念,以避免从同一个编程模式中产生多个冗余规则.在此基础上,提出一种高效的反例检测算法检测违反规则的程序片段.实验结果表明,该方法能够自动提取程序中存在的隐式编程规则,并快速有效地检测违反规则的反例.
-
关键词
频繁闭合项集挖掘
程序规则提取
反例检测
软件缺陷检测
静态分析
-
Keywords
frequent closed itemset mining
programming roles extracting
violations detecting
software defects detecting
static analysis
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于位存储Tid的CPU并行化Eclat算法
被引量:2
- 11
-
-
作者
孙宗鑫
张桂芸
-
机构
天津师范大学计算机与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第12期79-84,共6页
-
基金
国家自然科学基金面上项目(61572358)
天津市自然科学基金面上项目(16JCYBJC23600)
-
文摘
Eclat算法采用垂直数据表示方式且无需复杂的数据结构,然而在挖掘频繁项目集过程中,交集计数的生成方式造成内存大量消耗和挖掘效率下降。为此,在分析Eclat算法及其现有改进算法基础上,提出一种位存储事务标识(Tid)的CPU并行化Eclat算法。该算法使用二进制位形式存储项目的 Tid,将挖掘频繁项目集的任务分配到CPU各个线程,最大限度地提高CPU的运算性能。实验结果表明,该算法能在降低内存使用的同时,提高频繁项目集的挖掘效率。
-
关键词
频繁项目集挖掘
Eclat算法
位存储
CPU并行化
存储优化
-
Keywords
Frequent Itemset Mining(FIM)
Eclat algorithm
bit storage
CPU parallelization
storage optimization
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-