基于层次频繁模式树的数据自动挖掘算法被引量：2

Automatic data mining algorithm based on hierarchical frequent pattern tree

下载PDF

导出

摘要在大规模数据中包含过多的冗余信息,当前算法表达事物不够清晰,导致数据信息不能够完全被挖掘,操作效率过低。为此,提出了基于层次频繁模式树设计数据的自动挖掘算法。基于层次频繁模式树定义挖掘任务,以候选集剪枝思想建立数据自动连接矩阵,利用最小支持度裁剪队列自动挖掘数据,完成基于层次频繁模式树的数据自动挖掘算法设计。实验结果表明:动车组的运维数据作为测试样本,分别对不同总量的数据进行挖掘,研究算法能够在规定时间内将数据表达完全,以200万条数据为例本文算法比传统算法的挖掘数量,分别超出了10万条和8万条,提高了其工作效率。 There is too much redundant information in large-scale data,and the current algorithm is not clear enough to express things,which leads to data information that can not be completely mined and the operation efficiency is too low.Therefore,an automatic data mining algorithm based on a hierarchical frequent pattern tree is proposed.The mining task is defined based on the hierarchical frequent pattern tree,the automatic data connection matrix is established based on the idea of candidate set pruning,the data is automatically mined by using the minimum support pruning queue,and the automatic data mining algorithm design based on the hierarchical frequent pattern tree is completed.The experiment results show that the operation and maintenance data of EMU are used as test samples to mine different amounts of data respectively,and the research algorithm can fully express the data within the specified time.Taking 2 million data as an example,the mining number of the proposed algorithm exceeds 100000 and 80000 respectively compared with traditional algorithms,which can improve the work efficiency.

作者王景兰方晓 WANG Jinglan;FANG Xiao(Department of Information Engineering,Bozhou Vocational and Technical College,Bozhou 236800,Anhui,China)

机构地区亳州职业技术学院信息工程系

出处《上海电机学院学报》 2022年第4期239-242,248,共5页 Journal of Shanghai Dianji University

基金安徽省职业教育创新发展试验区资助项目(WJ-ZYPX-003) 安徽省级质量工程资助项目(2020jxtd173) 2020年安徽省高校人文科学研究资助项目(SK2020A0778) 2020亳州职业技术学院人文科学研究资助项目(BYK2029)。

关键词层次频繁模式树数据自动挖掘相关规则数据源连接矩阵 hierarchical frequent pattern tree automatic data mining relevant rules data source connection matrix

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1赵婷,王晓东,王爽,段晓萌.电能计量算法在双向计量频繁切换下的性能分析和改进[J].电测与仪表,2021,58(10):151-157. 被引量：7
2杨勇,张磊,曲福恒,刘俊杰,陈强.基于最频繁项提取和候选集剪枝的THIMFUP算法[J].吉林大学学报（理学版）,2021,59(3):635-642. 被引量：5
3朱美琪,杨庚,白云璐.基于本地化差分隐私保护的频繁项目挖掘算法[J].计算机技术与发展,2021,31(8):92-99. 被引量：2
4李洁.基于解耦概要图的图数据频繁模式挖掘算法[J].内蒙古民族大学学报（自然科学版）,2021,36(5):391-395. 被引量：2
5吴梓宏,程良伦,王卓薇.基于Spark的层次化项集挖掘算法[J].计算机工程与设计,2019,40(4):989-993. 被引量：2
6张永华,林孔升,冯淞耀.安全资源池数据节点异常自动挖掘方法研究[J].自动化与仪器仪表,2020(7):73-76. 被引量：4
7吕洋,张静,华芳.基于数据挖掘算法的汉英机器翻译二元语义模式规则[J].微型电脑应用,2021,37(11):19-21. 被引量：3
8储德润,周治平.加权PageRank改进地标表示的自编码谱聚类算法[J].智能系统学报,2020,15(2):302-309. 被引量：2
9纪纲,王海东,陈小飞.基于数据挖掘中文书目自动分类算法[J].计算机测量与控制,2018,26(5):237-241. 被引量：2
10黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5

二级参考文献73

1乔少杰唐常杰陈瑜等.基于树编辑距离的层次聚类算法.计算机科学与探索,2007,1(3):282-292.
2Embley D W, Jiang Yuan, Ng Y K. Record-boundary Dis- covery in Web Documents[C]//Proc. of ACM SIGMOD Inter- national Conference on Management of Data, New York, USA Is. n.], 1999.
3Buttler D, Liu Ling, Pu C. A Fully Automated Object Extraction System for the World Wide Web[C]//Proc. of the 21st International Conference on Distributed Computing Systems. New York, USA: Is. n.], 2001.
4Liu Bing, Grossman R, Zhai Yanhong. Mining Data Records in Web Pages[C]//Proc. of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: Is. n.], 2003.
5Reis D C, Golgher P B, Silva A S, et al. Automatic Web News Extraction Using Tree Edit Distance[C]//Proc. of the 13th International Conference on World Wide Web. New York, USA: [s. n.], 2004.
6Tai Kuochung. The Tree-to-Tree Correction Problem[J]. Journal of the ACM, 1979, 26(3): 422-433.
7黄德才,张良燕,龚卫华,刘端阳.一种改进的关联规则增量式更新算法[J].计算机工程,2008,34(10):38-39. 被引量：21
8冯玉才,冯剑琳.关联规则的增量式更新算法[J].软件学报,1998,9(4):301-306. 被引量：227
9姜波,丁岳伟.基于约束树编辑距离与导航树的信息采集[J].计算机工程,2009,35(14):75-77. 被引量：9
10刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7

共引文献24

1伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
2常丽君,钱钢.面向不规则列表的网页数据抽取技术的研究[J].计算机应用研究,2015,32(9):2651-2654. 被引量：1
3肖伟民,孙鹏,郭志川,胡琳琳.基于WebKit内核的焦点查询策略研究与优化[J].计算机应用与软件,2016,33(10):77-81. 被引量：1
4刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10
5陶媛媛,陶丹.基于DNN与规则学习的机器翻译算法研究[J].计算机测量与控制,2021,29(1):150-153. 被引量：3
6张雪琴,彭露苇.35 kV变电站造价模型异常数据溢出控制的研究[J].电子设计工程,2021,29(4):145-149. 被引量：1
7李鹏,刘力军,黄永东.基于地标表示的联合谱嵌入和谱旋转的谱聚类算法[J].计算机科学,2021,48(S01):220-225.
8孙小雪,钟辉,陈海鹏.基于决策树分类技术的学生考试成绩统计分析系统[J].吉林大学学报（工学版）,2021,51(5):1866-1872. 被引量：10
9陈广,宋志伟,陈少兵,贺绍鹏,毛烨华,李泽坤.数据感知技术在电力物资供应链数据质量管理中的应用[J].科技管理研究,2021,41(18):182-191. 被引量：21
10赵剑,董文华,史丽娟,匡哲君,毕京晓,王晢宇,强文倩.针对突发公共事件的舆情监测与可视化分析[J].吉林大学学报（信息科学版）,2021,39(6):712-719. 被引量：2

同被引文献33

1郭娟,杨为民,石亚和.基于微粒群算法的二维最大熵图像分割方法[J].计算机仿真,2005,22(11):94-97. 被引量：20
2王翥,胡屏,董梦梦,佟晓筠.多贪婪准则条件下中继节点布局算法[J].北京邮电大学学报,2016,39(3):91-94. 被引量：3
3李明兰.基于非固定长度散列表的无监督式海明距离搜索[J].重庆理工大学学报（自然科学）,2020,34(1):71-76. 被引量：1
4王常武,尹松林,刘文远,魏小梅,郑红军,杨继萍.HUIM-IPSO:一个改进的粒子群优化高效用项集挖掘算法[J].小型微型计算机系统,2020,41(5):1084-1090. 被引量：10
5张静,高尚.基于轮盘赌反向选择机制的果蝇优化算法[J].计算机与数字工程,2020,48(7):1595-1600. 被引量：7
6蒋志龙.一种基于力控组态软件数据转储的实现[J].能源技术与管理,2021,46(4):165-166. 被引量：2
7胡自松,王丽珍,Vanha Tran,周丽华,陈文和.基于图数据库的空间频繁并置模式挖掘[J].计算机科学与探索,2022,16(4):806-821. 被引量：2
8王伟权,丁鼎,曹淑艳.混合变邻域搜索算法求解大规模电动车辆路径优化问题[J].系统仿真学报,2022,34(4):910-919. 被引量：9
9田启华,汪汝学,张玉蓉,周祥曼,付君健.任务执行时间不确定下产品开发的多目标优化[J].三峡大学学报（自然科学版）,2022,44(4):77-83. 被引量：1
10蔡勋玮,赵俊,马丛,马龙刚.新供电服务指挥系统诉求响应数据自动挖掘方法[J].自动化技术与应用,2022,41(7):62-64. 被引量：1

引证文献2

1李扬.基于遗传算法的复杂产品优化设计[J].自动化与仪器仪表,2023(7):91-95. 被引量：1
2段远志.组态软件实时数据库的数据自动挖掘算法[J].智能计算机与应用,2024,14(2):183-186.

二级引证文献1

1张文建,余承昊.基于遗传算法的圆锥量规中轴线提取方法[J].上海计量测试,2024,51(2):43-45.

1于斌,陆旭,田聪,段振华,张南.面向SQLite3数据库API调用序列的并行运行时验证方法[J].软件学报,2022,33(8):2755-2768. 被引量：8
2刘国民.董仲舒“德主刑辅”的治理路线及其当代价值[J].孔子研究,2022(4):25-36. 被引量：3

上海电机学院学报

2022年第4期

浏览历史

内容加载中请稍等...

基于层次频繁模式树的数据自动挖掘算法被引量：2

参考文献10

二级参考文献73

共引文献24

同被引文献33

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层次频繁模式树的数据自动挖掘算法 被引量：2

参考文献10

二级参考文献73

共引文献24

同被引文献33

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于层次频繁模式树的数据自动挖掘算法被引量：2