期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
大数据挖掘的均匀抽样设计及数值分析 被引量:9
1
作者 李毅 米子川 《统计与信息论坛》 CSSCI 北大核心 2015年第4期3-6,共4页
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何... 就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。 展开更多
关键词 均匀设计 数据挖掘 大数据抽样
下载PDF
一对多轮换估计法下的同伴驱动抽样方法探讨
2
作者 聂瑞华 石洪波 米子川 《统计与决策》 CSSCI 北大核心 2019年第22期16-19,共4页
在研究微博用户行为时,研究者常需要利用抽样数据来估计微博用户的总体比例。然而互联网数据具有的海量性和不稳定性导致在微博环境下使用概率抽样方法出现困难。文章分析了一种非概率抽样方法--同伴驱动抽样方法,并引入了一对多轮换估... 在研究微博用户行为时,研究者常需要利用抽样数据来估计微博用户的总体比例。然而互联网数据具有的海量性和不稳定性导致在微博环境下使用概率抽样方法出现困难。文章分析了一种非概率抽样方法--同伴驱动抽样方法,并引入了一对多轮换估计的概念,提出了一对多轮换估计法下的同伴驱动抽样,来估测微博用户的总体比例。经过理论推导和实证检验,一对多轮换估计法下的同伴驱动抽样方法能够有效地估计多类微博用户的总体比例,是一种可推广于社交网络数据采集的大数据抽样方法。 展开更多
关键词 同伴驱动抽样 比例估计 一对多轮换估计法 大数据抽样
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部