基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究被引量：9

Research on association rule mining for minority classes of unbalanced database by confabulation theory

导出

摘要在网络入侵检测系统中,数据挖掘往往面对的是不平衡数据集,而对不平衡数据集中少数类的挖掘是现在研究的热点.针对不平衡数据集中少数类的挖掘问题,提出了不平衡库关联规则挖掘算法(ARUD).算法首先构造一个知识联接强度矩阵,用来存储所有二项集的支持度计数,然后基于该矩阵挖掘满足最小说服度的所有关联规则,且ARUD算法仅需扫描整个事务数据库1次.采用了UCI数据库中4个典型的不平衡数据集,对比Apriori算法与CFP-Growth算法,ARUD算法能有效提取不平衡数据集中的少数类,并在数据挖掘运行时间和占用内存方面均有性能提升. According to network intrusion detection system, data mining are frequently faced with unbalanced data sets, and the mining of minority classes from unbalanced database is research focus. Aim at mining of minority classes from unbalanced database, this paper proposes an association rules mining from unbalanced database called ARUD, the proposed algorithm through based on pairwise item condition probability to calculate the cogency of find all association rules, ARUD only one passes through the file. In this paper, four typical data sets from the UCI ,compared with Apriori and CFP-Growth, ARUD has the superiority of the approach for classifying minority classes in unbalanced data sets.In addition,ARUD is consistently faster and consumes less memory space.

作者刘云向婵

机构地区昆明理工大学信息工程与自动化学院

出处《云南大学学报（自然科学版）》 CAS CSCD 北大核心 2017年第1期33-38,共6页 Journal of Yunnan University(Natural Sciences Edition)

基金国家自然科学基金(61262040)

关键词不平衡数据集少数类关联规则说服度 unbalanced data sets minority classes association rules cogency

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1江颉,王卓芳,GONG Rong-sheng,陈铁明.不平衡数据分类方法及其在入侵检测中的应用研究[J].计算机科学,2013,40(4):131-135. 被引量：8
2职为梅,郭华平,张银峰,范明.一种面向非平衡数据集分类问题的组合选择方法[J].小型微型计算机系统,2014,35(4):770-775. 被引量：7
3李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252. 被引量：21
4霍玉丹,谷琼,蔡之华,袁磊.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124. 被引量：18
5郭华平,董亚东,毛海涛,邬长安,范明.一种基于逻辑判别式的稀有类分类方法[J].小型微型计算机系统,2016,37(1):140-145. 被引量：23
6赵官宝,刘云.一种基于位表的有效频繁项集挖掘算法[J].山东大学学报（理学版）,2015,50(5):23-29. 被引量：4
7梁珺,刘云.基于析取规则对不确定数据挖掘的优化研究[J].四川大学学报（自然科学版）,2016,53(4):788-792. 被引量：5
8章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43

二级参考文献102

1Ling C X, Li C. Data mining for direct marketing:Problems and solutions[C]//Proceedings of the 4th international conference on knowledge discovery and data mining. New York, NY, 1998: 73-79.
2Sun Yan-min, Kamel M S, Wong A K C, et aL Cost-Sensitive Boosting for Classification of Imbalanced Data[J]. Pattern Re- cognition, 2007,40(12) : 3358-3378.
3Estabrooks A,Jo T,Japkowicz N. A multiple resampling method for learning from imbalanced data sets [J]. Computational Intel- ligence, 2004,20(1) : 18-36.
4Japkowicz N, Stephen S. The class imbalance problem: A sys- tematic study[J]. Inte/ligent Data Analysis, 2002, 6 (5): 429- 450.
5Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling techniques [J].Journal of Artificial Re- search, 2002,16 : 321-357.
6Drummond C, Holte R C. C4. 5, Class imbalance, and cost sensi- tivity:Why under-sampling beats over-sampling [C] //Procee- dings of the ICML'03 Workshop on Learning from Irnbalanced Data Sets. 2003.
7Kubat M,Matwin S. Addressing the curse of imbalanced train- ing sets:one-sided selection [C]//Proceedings of the 14th Inter- national Conference on Machine Learning. 1997:179-186.
8Holte R C, Acker L E, Porter B W. Concept learning and the problem of small disj uncts[C]//Proceedings of the 11 th joint in- ternational conference on artificial intelligence. ]989:813-818.
9Weiss G M. Mining with rarity: A unifying framework [J]. ACM SIGKDD Explorations Newsletter-Special Issue on Lear- ning from Imbalaneed Datasets, 2004,6 (1) : 7-19.
10Quinlan J R. Improved estimates for the accuracy of small dis- juncts [J]. Machine Learning, 1991,6(1) : 93-98.

共引文献118

1张文喜.对哈耶克“自由与责任”思想的一种阐释[J].学术研究,2000(5):49-55. 被引量：9
2职为梅,郭华平,范明.抽样技术和CBES分类非平衡数据集[J].计算机科学,2013,40(12):70-74.
3张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[J].大数据,2019,5(1):68-76. 被引量：4
4林倩瑜.云服务环境下的大数据多标签属性分类技术[J].微电子学与计算机,2019,36(2):101-104. 被引量：14
5李湘东,何海红,曹环,黄莉.针对训练集分布偏斜问题的数字资源文本分类方法[J].现代图书情报技术,2014(7):24-33. 被引量：2
6李伟亮,马传香,彭茗菁.基于MAPREDUCE并行处理的轨迹模式挖掘算法的研究[J].物联网技术,2014,4(10):69-71.
7翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
8白玲玲,韩天鹏,王峰.基于改进FP-tree的高实用项目集挖掘研究[J].赤峰学院学报（自然科学版）,2015,31(8):21-25.
9崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
10杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1

同被引文献25

1韩天鹏,白玲玲,王浩.基于候选项集剪枝的Apriori算法的研究[J].阜阳师范学院学报（自然科学版）,2014,31(4):79-83. 被引量：4
2赵官宝,刘云.一种基于位表的有效频繁项集挖掘算法[J].山东大学学报（理学版）,2015,50(5):23-29. 被引量：4
3黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11
4严小冬,宋燕,吴战平,田鹏举.基于GEV干旱指数的贵州春旱时空变化及预测模型探析[J].云南大学学报（自然科学版）,2016,38(2):256-266. 被引量：7
5曹莹,苗志刚.基于向量矩阵优化频繁项的改进Apriori算法[J].吉林大学学报（理学版）,2016,54(2):349-353. 被引量：19
6梁珺,刘云.基于析取规则对不确定数据挖掘的优化研究[J].四川大学学报（自然科学版）,2016,53(4):788-792. 被引量：5
7Zhiguo Qu,John Keeney,Sebastian Robitzsch,Faisal Zaman,Xiaojun Wang.Multilevel Pattern Mining Architecture for Automatic Network Monitoring in Heterogeneous Wireless Communication Networks[J].China Communications,2016,13(7):108-116. 被引量：8
8杨英杰,邱卫.基于时间衰减模型的模糊会话关联规则挖掘算法[J].计算机应用研究,2017,34(1):128-131. 被引量：6
9赵龙,杨小兵,吴强,高宇.一种基于多值属性的改进Apriori算法[J].中国计量大学学报,2017,28(1):108-112. 被引量：5
10侯伟超,刘英博,黄向东.大数据环境下并行数据流预测及优化方法[J].信息技术,2017,41(5):110-116. 被引量：1

引证文献9

1刘云,黄亚飞.扩展算法在频繁行为模式分析中的优化研究[J].云南大学学报（自然科学版）,2018,40(2):236-242. 被引量：1
2刘云,黄亚飞.可替代封闭模式对生产数据的优化分析[J].西北大学学报（自然科学版）,2018,48(2):191-198.
3白玲玲,韩天鹏.关联规则在健康文本信息挖掘中的应用[J].阜阳师范学院学报（自然科学版）,2019,36(3):43-48. 被引量：1
4刘云,王梓宇.非参数触发算法对时空因果关系的优化研究[J].云南大学学报（自然科学版）,2019,41(6):1130-1136.
5韩天鹏,王峰.一种基于本地分区的挖掘算法研究[J].赤峰学院学报（自然科学版）,2019,35(11):57-61.
6王晓鹏.区间值属性数据集关联规则挖掘算法仿真[J].计算机仿真,2020,37(1):234-238. 被引量：4
7刘云,王梓宇.无偏KL散度算法对时空异常区间检测的优化研究[J].计算机工程与科学,2020,42(7):1318-1324. 被引量：2
8孙瑜.不平衡数据集中少数类关联规则挖掘的研究与应用[J].电子技术与软件工程,2023(3):233-236.
9张宏.基于数据挖掘的汽车运行数据采集设备故障诊断方法[J].汽车安全与节能学报,2019,10(1):54-59. 被引量：13

二级引证文献21

1彭威,任均国,周建平.复合推进剂线粘弹本构方程的细观力学分析(Ⅱ)非球颗粒增强效应分析[J].推进技术,2000,21(1):75-78. 被引量：6
2张宏.车载自组织网络中车辆路径预测序列模式数据挖掘方法[J].汽车技术,2019(9):6-10. 被引量：1
3张宏,吕悦晶.基于大数据挖掘技术的车载自组织网络状态异常检测[J].汽车技术,2019(10):48-52. 被引量：7
4管祥甫,管子涵.计算机文本信息挖掘技术在网络安全中的应用[J].电子技术与软件工程,2019,0(21):184-185. 被引量：2
5刘云,王梓宇.非参数触发算法对时空因果关系的优化研究[J].云南大学学报（自然科学版）,2019,41(6):1130-1136.
6李傲寒.基于Mean-shift跟踪算法的汽车运行物体目标监测分析[J].电子测量技术,2019,42(23):15-18. 被引量：1
7张宏,吕悦晶.基于关联规则挖掘的VANET环境下车辆路径预测[J].北京交通大学学报,2020,44(2):1-8. 被引量：3
8杨井荣,侯向宁.正负关联规则数据挖掘算法研究[J].计算机技术与发展,2020,30(11):64-68. 被引量：5
9吴西庆勇.基于数据挖掘的二手车定价研究[J].新型工业化,2020,10(8):6-7. 被引量：4
10裴潇倜,吕琳,黄鹏杰,陈兆学,林勇.基于U-Net的T细胞斑点检测方法研究[J].中国医学物理学杂志,2021,38(4):518-522.

1Aruba网络完成对阿德利亚科技的收购[J].中国信息化,2010(18):78-78.
2张献,于涛,孙亮.云化城域网发展运营模式探讨[J].信息系统工程,2015,0(7):32-32.
3张力,戴冠中.一种无线Ad hoc网络中的可靠UDP协议[J].计算机仿真,2009,26(2):162-165. 被引量：2
4ARUBA喜赢2008年Techworld无线安全产品奖[J].通讯世界,2008(8):78-78.
5于海征,马建峰,边红.容迟网络中基于社会网络的可靠路由[J].通信学报,2010,31(12):20-26. 被引量：5
6常莎,邓红霞,李海芳.基于强度PCNN的静态图像人脸识别[J].太原理工大学学报,2015,46(1):89-93. 被引量：2
7陈波,陶威,王运明.基于ARUDP的指挥控制网络数据传输协议[J].火力与指挥控制,2016,41(4):157-160. 被引量：9
8李静茹,喻莉,赵佳.加权社交网络节点中心性计算模型[J].电子科技大学学报,2014,43(3):322-328. 被引量：11
9马宪民,陈亚茹.自适应抗差UKF算法在GPS/BD-2组合系统中的应用[J].计算机应用研究,2014,31(4):1123-1126. 被引量：1
10邓小云,刘金清,吴庆祥.基于脉冲神经网络人脸特征提取[J].福建师范大学学报（自然科学版）,2014,30(1):45-51. 被引量：1

云南大学学报（自然科学版）

2017年第1期

浏览历史

内容加载中请稍等...

基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究被引量：9

参考文献8

二级参考文献102

共引文献118

同被引文献25

引证文献9

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究 被引量：9

参考文献8

二级参考文献102

共引文献118

同被引文献25

引证文献9

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究被引量：9