-
题名基于洗牌算法的大数据抽样有效性分析
被引量:3
- 1
-
-
作者
刘涵阅
张春生
-
机构
内蒙古民族大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2021年第10期3049-3054,共6页
-
基金
国家自然科学基金资助项目(81460656)
内蒙古自然科学基金资助项目(2018MS06016)。
-
文摘
基于折叠技术的洗牌算法具有较好的数据置乱效果,可以满足大数据抽样的前提条件。为证明置乱后的数据集在经过抽样后内部规则不被破坏,通过数据挖掘的方法对抽样前后的数据进行关联规则分析。对比所得关联规则的支持度、置信度,以及事务出现的频率,发现经过折叠洗牌算法置乱后的数据在抽样前后所得到的关联规则变化相对稳定,并通过与现有算法的时间效率以及抽样总体误差作对比,进一步在理论上得出大数据抽样具有有效性,即可以通过抽样样本来推测数据整体情况。
-
关键词
大数据
抽样技术
折叠洗牌算法
关联规则
抽样有效性
-
Keywords
big data
sampling technology
shuffling algorithm
association rules
sampling effectiveness
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于折叠技术的大数据样本洗牌算法研究
被引量:1
- 2
-
-
作者
李庆
刘涵阅
张春生
-
机构
内蒙古民族大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2021年第5期43-47,共5页
-
基金
国家自然科学基金(81460656)
内蒙古自然科学基金(2018MS06016)。
-
文摘
大数据处理效率问题是目前的研究热点,而基于样本抽样技术可降样本数量,是提高大数据处理效率的方法之一。文中提出一种基于折叠技术的大数据洗牌算法,首先给出洗牌算法的基本原理,同时定义离散度和均匀度两个评价指标,并从时间效率、离散度和均匀度3个角度进行了仿真实验。实验结果表明,基于折叠技术的大数据洗牌算法具有较高的时间效率,当样本分段数为样本总数的5%,循环次数为样本总数的2%时,离散度和均匀度明显优于其他基于随机技术的洗牌算法。基于折叠技术的大数据洗牌算法为大数据抽样和提高局部样本的可用性提供了一个新的途径,克服了抽样不均匀对原始样本产生的影响,提高了大数据挖掘的时间效率。
-
关键词
折叠技术
大数据
洗牌算法
局部有效性
GUID
-
Keywords
folding technology
big data
shuffling algorithm
local effectiveness
Guid
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-