大数据挖掘的均匀抽样设计及数值分析被引量：9

Uniform Sampling Design and Numerical Analysis in Big Data Mining

下载PDF

导出

摘要就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。 On multidimensional,sparse and dynamic characteristics of big data generation process,the big data set does not mean that the statistical population.Even for big static data,random sampling also has an indispensable value.In large-scale data analysis,it is often encounter the need to reduce the dimensions and reduce the amount of calculation and yet we do not know how to deal with the problem of sampling.Our paper proposes a uniform sampling strategy in big data mining applications,and apply simulated data and monitoring fetal heart contractions datasets to numerical analysis.Our results indicate that proposed method is obviously superior to the existing methods in literatures on the error rate of the training data.This conclusion might be useful for the implementation of data mining by sampling on the large database,and provide evidence for sampling effectiveness in big data analysis.

作者李毅米子川

机构地区山西财经大学统计学院

出处《统计与信息论坛》 CSSCI 北大核心 2015年第4期3-6,共4页 Journal of Statistics and Information

基金国家自然科学基金项目<在家系序列数据中同质性检验的连锁研究>(31470070) 山西省自然科学基金项目<基因型模式在基因组选择中的整合研究>(2014011030-4) 山西省回国留学人员科研资助项目<基于统计学习理论的基因组选择研究>(2013-72)

关键词均匀设计数据挖掘大数据抽样 uniform design data mining big data sampling

分类号 C812 [社会学—统计学] F222.3 [经济管理—国民经济]

引文网络
相关文献

参考文献17

1Jordan J M,Lin Dennis K J.Statistics for Big Data:Are Statisticians Ready for Big Data[J].International Chinese Statistical Association Bulletin,2014,26(1).
2Fan J Q,Han F,Liu H.Challenges of Big Data Analysis[J].National Science Review,2014,1(12).
3乔晗.“大数据”背景下利用扫描数据编制中国CPI问题研究[J].统计与信息论坛,2014,29(2):12-19. 被引量：14
4Li R Z,Lin Dennis K J,Li Bing.Statistical Inference on Massive Data Sets[J].Applied Stochastic Models in Business and Industry,2013,29(5).
5Fang K T,Lin Dennis K J.Winker P,Zhang Y.Uniform Design:Theory and Application[J].Technometrics,2000,42(3).
6Fang K T,Lin Dennis K J.Uniform Experimental Design and Its Applications in Industry,Hndbook of Statistics in Industry[M].New York:Eisevier,2003.
7Li R Z,Lin Dennis K J,Chen Y.Uniform Design:Design,Analysis and Its Application[J].International Journal of Materials and Product Technology,2004,20(1).
8Huang C M,Lee Y J,Lin Dennis K J,Huang S Y.Model Selection for Support Vector Machines Via Uniform Design[J].Computational Statistics&Data Analysis,2007,52(1).
9张维群.均匀设计在多指标抽样调查方案设计中的应用[J].统计与信息论坛,2009,24(10):18-23. 被引量：5
10Yang J F,Sun F S,Lin Dennis K J,Liu Min-Qian.A Study on Design Uniformity Under Errors in the Level Values[J].Statistics and Probability Letters,2010,80(19).

二级参考文献17

1王佐仁,张维群,耿宏强.高低成本指标广义相关下的多目标复合抽样方法的设计与应用[J].统计与信息论坛,2004,19(4):22-26. 被引量：3
2王佐仁,张维群,耿宏强.总体分高低成本下的复合多目标抽样方案的设计与应用[J].统计与信息论坛,2005,20(1):12-15. 被引量：3
3华罗庚，Application of Number Theory to Numerical Analysis，1981年
4张润楚，基于正交表的均匀LH设计和抽样
5张润楚，应用概率统计，1996年，12卷，337页
6Bundschuh P，科学通报，1994年，39卷，1724页
7方开泰，科学通报，1994年，39卷，1921页
8张润楚，应用概率统计，1994年，10卷，420页
9方开泰，均匀设计与均匀设计表，1994年
10Tang B X，JASA，1993年，88卷，1392页

共引文献27

1张礼兵,程吉林,金菊良,蒋晓红.基于整数编码遗传算法的均匀设计表构造[J].系统工程理论与实践,2005,25(12):57-61. 被引量：7
2卢静莉,丁昌江,闫在在.多辅助变量线性组合的回归估计[J].统计与信息论坛,2010,25(5):14-17. 被引量：1
3张国秋,王文璇.均匀试验设计方法应用综述[J].数理统计与管理,2013,32(1):89-99. 被引量：40
4王兆军,曾渊沧,郝刚.随机化均匀设计在股票交易上的应用[J].经济数学,2000,17(2):7-14.
5董利苹,曲建升,张志强,刘莉娜.居民生活碳排放抽样调查方案设计:以青海省为例[J].数学的实践与认识,2014,44(6):81-88. 被引量：2
6张伟,朱孔来.权数对CPI的结果影响程度定量分析[J].统计与信息论坛,2014,29(6):25-29. 被引量：2
7王兆军,陈彬.某些二维均匀设计表[J].南开大学学报（自然科学版）,2001,34(1):78-82. 被引量：1
8马长兴,张润楚.低偏差OALHD的构造[J].应用概率统计,2001,17(2):149-155. 被引量：1
9王兆军,曾渊沧,郝刚.均匀设计抽样在股市投资决策上的应用[J].应用数学学报,2001,24(2):195-203. 被引量：2
10王兆军.相对强弱指数的最佳参数组合[J].经济数学,2001,18(2):23-31. 被引量：3

同被引文献50

1杨锋涛,吕晓旭,王殿元,江长双.基于二阶差分的加权最小费用流相位展开算法[J].激光技术,2006,30(6):667-669. 被引量：5
2刘兹恒.图书馆危机管理基础工作策略[J].图书馆论坛,2008,28(6):21-25. 被引量：26
3庞新生.分层随机抽样条件下缺失数据的多重插补方法[J].统计与信息论坛,2009,24(5):19-21. 被引量：7
4王静,曹作华.基于混沌理论的高校图书馆危机管理研究[J].图书情报工作,2009,53(13):38-41. 被引量：19
5程雪梅.高校图书馆危机管理的组织视角及解决途径[J].图书馆理论与实践,2012(1):85-88. 被引量：12
6李晓琳.H型钢行业总体发展的研究与探讨[J].冶金经济与管理,2013(6):8-11. 被引量：1
7崔颖安,李雪,王志晓,张德运.社会化媒体大数据多阶段整群抽样方法[J].软件学报,2014,25(4):781-796. 被引量：9
8于力超,金勇进.基于分层模型的缺失数据插补方法研究[J].统计研究,2018,35(11):93-104. 被引量：6
9沈红梅.抽样调查方法与实践之再思考[J].统计研究,2002,19(6):35-37. 被引量：10
10程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：740

引证文献9

1黄超,赵珂,黄国勇,夏礽.HRB400级螺纹钢大数据分析与应用[J].价值工程,2017,36(15):136-137. 被引量：3
2陈艳,陈光,易叶青,刘强.基于均匀抽样的二阶差分聚类数确定方法[J].计算机与现代化,2017(10):49-52. 被引量：1
3刘逸萱.浅析大数据挖掘中抽样估计法的应用[J].现代信息科技,2019,3(21):76-77. 被引量：1
4井水,周妮.陕西省高校图书馆危机管理策略与反思[J].高校图书馆工作,2020,40(3):22-28. 被引量：16
5付常伟.基于SPSS的345 MPa级热轧H型钢性能数据分析与建模[J].轧钢,2020,37(2):83-88. 被引量：2
6张新扬,赵桂梅,刘喜波.大样本线性回归的子抽样方法比较研究[J].信息技术与信息化,2021(1):124-126.
7秦磊,叶玲珑,谢邦昌.广义可加模型的拟最优样本选择方法[J].统计与信息论坛,2022,37(10):16-24. 被引量：1
8李莉莉,杜梅慧,张璇.基于logistic回归模型的大数据分布式两步子抽样算法[J].数理统计与管理,2022,41(5):858-866. 被引量：4
9张维群,成鹏东.基于“三新”企业分层抽样单元权重动态调整的估计方法[J].统计与信息论坛,2024,39(3):3-13.

二级引证文献28

1孟亮.突发公共卫生事件中公共图书馆应急服务探讨——以天津市各级公共图书馆为例[J].图书馆工作与研究,2020(S01):91-94. 被引量：4
2徐道送,方振麟,叶圣渊.HRB400含铬镍螺纹钢性能多元线性回归分析[J].浙江冶金,2018(4):18-20. 被引量：1
3高源,颜靖柯,冯意.化学元素对热轧带肋钢筋性能的影响[J].四川工商学院学术新视野,2019,4(2):34-46.
4付常伟.基于SPSS的345 MPa级热轧H型钢性能数据分析与建模[J].轧钢,2020,37(2):83-88. 被引量：2
5杨晓菲,孙继莆,韩冰.我国图书馆面向突发公共事件应急服务与管理研究与实践综述[J].图书情报工作,2020,64(15):204-211. 被引量：7
6潘远璐.高校图书馆微博服务体系建设初探[J].传播力研究,2020,4(10):197-198. 被引量：1
7郑丽芳,于永国.高校应对公共危机对策研究及理论思考[J].宿州教育学院学报,2020,23(4):21-25. 被引量：2
8崔丽媛,徐跃权,刘春丽.我国高校图书馆委托借阅、复工开馆调查及常态化疫情防控下的服务建议[J].国家图书馆学刊,2020,29(4):33-47. 被引量：13
9张杰龙,董瑜伽,李玲.新冠疫情下图书馆应急服务的挑战与思考[J].数字图书馆论坛,2020(10):25-31. 被引量：8
10柳迪.高校图书馆线上阅读推广再思考——以上海政法学院图书馆为例[J].办公室业务,2021(1):168-171. 被引量：1

1赵俊康.抽样设计的几个问题[J].山西财经学院学报,1993,21(5):56-59. 被引量：2
2刘婉如,庞善起,张里千,张建方.关于正交设计与均匀设计的比较(Ⅱ下)[J].质量管理,1995(6):43-45. 被引量：1
3米俊绒.试析均匀设计在社会经济中的应用原则及现实意义[J].山西统计,2003(2):30-30. 被引量：1
4杨建伟.论不完全作业成本法在企业中的应用[J].中国建设信息,2007(03X):69-71.
5许圣冰.浅析我国会计电算化存在的问题与应对措施[J].现代营销（下）,2017(1):89-89. 被引量：3
6李雄.基于结构方程模型的上市公司价值影响因素研究[J].时代金融,2011(9X):160-160.
7李成瑞.十亿人口的普查(摘要)[J].人口研究,1984,8(3):16-23.
8汤大益.浅析“据不完全统计”[J].内蒙古统计,2003(1):63-64.
9王娜.基于BP-Adaboost的上市公司财务危机预警实证研究[J].中国集体经济,2015,0(1):144-146.
10南星恒,赵辰.基于企业现金流量和净利润的财务危机实证研究[J].辽宁工程技术大学学报（社会科学版）,2016,18(4):508-515.

统计与信息论坛

2015年第4期

浏览历史

内容加载中请稍等...

大数据挖掘的均匀抽样设计及数值分析被引量：9

参考文献17

二级参考文献17

共引文献27

同被引文献50

引证文献9

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

大数据挖掘的均匀抽样设计及数值分析 被引量：9

参考文献17

二级参考文献17

共引文献27

同被引文献50

引证文献9

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

大数据挖掘的均匀抽样设计及数值分析被引量：9