-
题名大数据挖掘的均匀抽样设计及数值分析
被引量:9
- 1
-
-
作者
李毅
米子川
-
机构
山西财经大学统计学院
-
出处
《统计与信息论坛》
CSSCI
北大核心
2015年第4期3-6,共4页
-
基金
国家自然科学基金项目<在家系序列数据中同质性检验的连锁研究>(31470070)
山西省自然科学基金项目<基因型模式在基因组选择中的整合研究>(2014011030-4)
山西省回国留学人员科研资助项目<基于统计学习理论的基因组选择研究>(2013-72)
-
文摘
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。
-
关键词
均匀设计
数据挖掘
大数据抽样
-
Keywords
uniform design
data mining
big data sampling
-
分类号
C812
[社会学—统计学]
F222.3
[经济管理—国民经济]
-
-
题名一对多轮换估计法下的同伴驱动抽样方法探讨
- 2
-
-
作者
聂瑞华
石洪波
米子川
-
机构
太原师范学院经济系
山西财经大学信息与管理学院
山西财经大学统计学院
-
出处
《统计与决策》
CSSCI
北大核心
2019年第22期16-19,共4页
-
基金
国家社会科学基金资助项目(17BTJ010)
-
文摘
在研究微博用户行为时,研究者常需要利用抽样数据来估计微博用户的总体比例。然而互联网数据具有的海量性和不稳定性导致在微博环境下使用概率抽样方法出现困难。文章分析了一种非概率抽样方法--同伴驱动抽样方法,并引入了一对多轮换估计的概念,提出了一对多轮换估计法下的同伴驱动抽样,来估测微博用户的总体比例。经过理论推导和实证检验,一对多轮换估计法下的同伴驱动抽样方法能够有效地估计多类微博用户的总体比例,是一种可推广于社交网络数据采集的大数据抽样方法。
-
关键词
同伴驱动抽样
比例估计
一对多轮换估计法
大数据抽样
-
Keywords
respondent-driven sampling
proportional estimation
one-to-multiple rotation estimation
big data sampling
-
分类号
C811
[社会学—统计学]
-