-
题名一种基于关联程度的高效用数量比频繁模式挖掘算法
- 1
-
-
作者
王辉
李燕
丁丁
吴坤
黄雅平
-
机构
中国铁道科学研究院电子计算技术研究所
北京交通大学计算机科学与技术学院
交通数据分析与挖掘北京市重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2024年第9期1702-1710,共9页
-
基金
中国铁道科学研究院集团有限公司科研重大项目(2021YJ020)。
-
文摘
高效用频繁模式挖掘算法运用数据项的重要度信息,能够从数据中挖掘出更重要的频繁模式,而高效用数量比频繁模式挖掘算法可以进一步研究频繁模式中数据项的数量比例关系,是目前数据挖掘领域中的研究课题。从提高算法性能和实用性的角度出发对高效用数量比频繁模式挖掘算法进行优化,提出了一种基于关联程度的高效用数量比频繁模式挖掘算法RHUQI-Miner。RHUQI-Miner首先提出关联程度的概念,依据关联程度构建项目关联程度结构,并给出关联剪枝优化策略,寻找关联程度更高的项目集合,减少冗余和无效的频繁模式;随后运用修正模式长度策略,修正挖掘过程中项集的效用信息,使算法可根据实际数据情况控制输出频繁模式的长度,进一步提升算法的性能,提高算法的实用性。通过对RHUQI-Miner在动车组PHM系统车载故障数据集上的实验结果进行分析,表明该算法能够有效减少挖掘过程中的时间以及内存消耗,可以得出该算法适用于铁路实际数据和业务的有效结论。
-
关键词
高效用
数量比
频繁模式挖掘
关联剪枝
修正模式长度
-
Keywords
high utility
quantitative
frequent pattern mining
related pruning
fixed pattern length
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于MapReduce模式的多表联查算法
被引量:3
- 2
-
-
作者
高泽
李常宝
杨淙钧
刘忠麟
艾中良
-
机构
华北计算技术研究所
-
出处
《现代电子技术》
北大核心
2015年第14期81-84,88,共5页
-
文摘
多表关联查询是进行数据挖掘与分析的有效技术手段。随着大数据时代的到来,当前的数据分析技术在进行海量数据多表联查操作时存在明显的性能瓶颈,为此提出一种基于Map Reduce计算模型的多表联查算法UGS用以提升多表关联查询效率。实验表明,在海量数据背景下,该算法的查询效率明显优于大数据领域的Spark SQL,Hive及关系型数据库的My SQL。
-
关键词
MAPREDUCE
多表联查
关联空间剪枝
SPARK
-
Keywords
MapReduce
multi-table joint query
associated space pruning
Spark
-
分类号
TN911-34
[电子电信—通信与信息系统]
-