基于大数据的数据清洗研究被引量：2

Research on Data Cleaning Based on Big Data

下载PDF

导出

摘要大数据具有体量大、来源和格式多样、增长速度快、价值密度低和处理难度大的特点,即使通过合理设计参数对某段数据进行点估计的结果可能相当令人满意,但通过应用标准统计程序对整个数据体进行精度估计得到的结果,却是差强人意,从而误导人们。目的旨在分析影响大数据清洗的主要因素有哪些,首先回顾了数据获取对时间序列的依赖性并构造了一个大数据模型,然后在列出数据估计时所用的一些属性后,给出了数据清洗时的回归分析,同时探讨回归系数估计的可能影响。最后给出了大数据处理中误差累积的通用表示方法,提出了与时间序列理论中短程和长程依赖之间的区别大致相同的问题。 Big data has the characteristics of large volume,diverse sources and formats,rapid growth,low value density and difficult processing. Even if the result of a point estimation of a piece of data with a reasonable design parameter may be quite satisfactory,but the accuracy of the entire data body through the application of standard statistical procedures to estimate the results may still be unsatisfactory,thus misleading people. The purpose of this paper is to analyze the main factors affecting big data cleaning. The article first reviews the dependence of data acquisition on time series and constructs a big data model. Then,the regression analysis of data cleaning is given after some properties of data estimation are listed. The possible influence of regression coefficient estimation is also discussed. In the end,the general representation method of error accumulation in big data processing is given and the problem that the difference between short-range and long-range dependence in time series theory is roughly the same is proposed.

作者康鲲鹏 KANG Kunpeng(School of Information Technology,Shangqiu Normal University,476000,Shangqiu,Henan,PR)

机构地区商丘师范学院信息技术学院

出处《江西科学》 2018年第4期654-657,共4页 Jiangxi Science

基金河南省科技攻关项目(No.182102210486) 河南省高等学校重点科研项目(No.18A520008)

关键词数据清洗方差分量大数据长程依赖多级模型时间序列 data cleaning variance components large data long-range dependence multilevel model time series

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1李清泉,李德仁.大数据GIS[J].武汉大学学报（信息科学版）,2014,39(6):641-644. 被引量：180
2史苇杭,林楠.一种联合的时序数据特征序列分类学习算法[J].计算机工程,2016,42(6):196-200. 被引量：4
3于宁莉,易东云,涂先勤.时间序列中自相关与偏相关函数分析[J].数学理论与应用,2007,27(1):54-57. 被引量：41
4张清忠.面向云计算的时间序列数据挖掘系统架构设计[J].西安工程大学学报,2016,30(5):645-650. 被引量：9

二级参考文献46

1黄书剑.时序数据上的数据挖掘.软件学报,2004,15(1):1-7.
2杨一鸣,潘嵘,潘嘉林,杨强,李磊.时间序列分类问题的算法比较[J].计算机学报,2007,30(8):1259-1266. 被引量：40
3AhaltSC.为什么需要数据科学[J].中国计算机学会通讯,2013,9(12):11-15.
4大数据史记2013:盘点中国2013行业数据量[OL].http://www.36dsj.com/archives/6285,2013.
5Zikopoupos P C,Eaton C, de Roos D, et al. Under- standing Big Data, Analytics for Enterprise Class Hadoop and Streaming Data [ OL]. http..//public. dhe. ibm. com/common/ssi/ecm/ en/im114296usen/ IML14296USEN. PDF, 2012.
6Karel R. See Big Data Through a Different Lens [OL]. https : //www. informatica, corn/potential-at- work/information-leaders/article/see-big data. sht- ml,2013.
7李德仁,王树良,李德毅.空间数据挖掘理论与应用[M].2版.北京:科学出版社,2013.
8Li Q Q, Zhang T, Yu Y. Using Cloud Computing to Process Intensive Floating Car Data for Urban Traffic Surveillance[J]. International Journal of Geographical Information Science, 2011, 25 (8) : 1 301-1 322.
9Li D R, Cheng T. KDG Knowledge Discovery from GIS[C]. The Canadian Conference on GIS, Ottawa, Canada, 1994.
10Wong P C,Thomas J. Visual Analytics[J]. IEEE Computer Graphics and Applications, 2004, 24 (5) : 20-21.

共引文献230

1张萍,赵祺,张瑞芳.3S技术在城市社区疫情防控管理信息系统中的应用[J].中国建筑装饰装修,2022(20):74-76.
2王菊荣.福建省国土空间基础信息平台建设及应用[J].水利科技,2021(4):31-33. 被引量：3
3王菊荣,齐昕.福建省国土“一张图”数据库建设与应用[J].水利科技,2020(3):58-61. 被引量：7
4张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
5张萍,冯恩淼.3S技术在城镇社区物业管理信息系统中的应用[J].现代测绘,2019,42(6):59-61. 被引量：1
6刘小平,车扬子,欧金沛.科教融合下城市地理信息系统课程教学实践与创新研究[J].测绘通报,2023(S02):125-130.
7陈苏娟,张达文.大数据时代下的GIS发展[J].探索科学,2018,0(5):140-140.
8金志勇,刘启鹏,韩东,赵润林,巴海涛.非线性时间序列井间连通性分析方法[J].油气地质与采收率,2009,16(1):75-77. 被引量：16
9普杰信,刘森,黄心汉,赵力.基于相关分析的fMRI时间序列图像处理[J].中国生物医学工程学报,2008,27(6):854-859.
10李予州,吴文传,张伯明,江木,肖岚,路轶.多时间尺度协调的区域控制偏差超前控制方法[J].电网技术,2009,33(3):15-19. 被引量：11

同被引文献25

1曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009,53(18):79-82. 被引量：346
2张霞,王素贞,尹怡欣,赵海龙.基于模糊粒度计算的K-means文本聚类算法研究[J].计算机科学,2010,37(2):209-211. 被引量：12
3张一文,齐佳音,方滨兴,李欲晓.非常规突发事件网络舆情热度评价指标体系构建[J].情报杂志,2010,29(11):71-75. 被引量：127
4张建中,方正,熊拥军,袁小一.对基于SNM数据清洗算法的优化[J].中南大学学报（自然科学版）,2010,41(6):2240-2245. 被引量：17
5柳虹,徐金华.网络舆情热点发现研究[J].科技通报,2011,27(3):421-425. 被引量：24
6龙志祎,程葳.基于词聚类的热点话题检测算法[J].计算机工程与设计,2011,32(6):2214-2216. 被引量：27
7张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
8张世军,程国胜,蔡吉花,杨建伟.基于网络舆情支持向量机的股票价格预测研究[J].数学的实践与认识,2013,43(24):33-40. 被引量：11
9梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：48
10王玉珍.网络舆情热点发现综述[J].内蒙古科技与经济,2015(16):66-67. 被引量：4

引证文献2

1徐建国,蔺珍,张鹏,徐明磊,李恒忠.网络舆情热点获取与分析算法研究[J].软件导刊,2019,18(5):93-97. 被引量：3
2张荃,陈晖.基于最小哈希的重复数据清洗方法[J].通信技术,2019,52(11):2653-2658. 被引量：4

二级引证文献7

1徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
2张宇豪,王依凡,马雪扬,孙昊琳,佟雨尧.微博情感分析可视化系统[J].现代信息科技,2019,3(11):115-116. 被引量：1
3肖文杰,张艳芳.在线评论大数据下旅游景区网络口碑研究——以张家界国家森林公园为例[J].软件导刊,2019,18(11):121-125. 被引量：2
4王兆君,岳良文.产品质量标准数据清洗模型及应用研究[J].标准科学,2020(4):88-95. 被引量：2
5羊斌,宁丽.基于可视化技术的市场监管大数据分析系统[J].信息技术与信息化,2020(7):240-242. 被引量：1
6徐卓,王宁娜,穆琳.基于地理信息的数据清洗探讨与实践[J].信息工程大学学报,2021,22(3):321-325. 被引量：1
7成都深报地铁传媒院士科研基地课题组.基于神经网络时间序列模型的成都地铁三号线磨子桥站短期客流预测分析[J].综合运输,2022,44(9):155-160.

1张和平.线性模型的比较[J].江西师范大学学报（自然科学版）,1987,12(4):23-26.
2李晓明.大数据时代下信息披露的发展趋势研究[J].经济技术协作信息,2018,0(19):54-55.
3瞿诗华,吴华炜,钱志余,李韪韬.基于脉搏波特征参数的无创血压测量改进算法[J].生物医学工程研究,2018,37(1):36-41. 被引量：10
4李俊达,吴昊,毛秋宇,张复生.基于工业物料系统的数据清洗流程[J].现代信息科技,2018,2(3):22-23.
5孙玉海,王林,茹含,刘伟强,贾兴利.基于有限元的加筋土挡土墙加筋材料合理设计参数[J].筑路机械与施工机械化,2017,34(10):68-72. 被引量：1
6刘竹生,张博戎.运载火箭总体设计多学科优化方法发展及展望[J].宇航总体技术,2017,1(2):1-6. 被引量：20
7李凡.基于大数据环境的海事船舶数据研究[J].科教导刊（电子版）,2018,0(13):215-217. 被引量：1
8赵玉清,陈莹莹,李璐,李建凡,宾耀梅,玉桂成,陈剑成.火力楠不同种源早期生长遗传变异[J].广西林业科学,2018,47(2):195-199. 被引量：4
9杨思思.中证100股票指数回归模型的实证分析[J].重庆文理学院学报（社会科学版）,2018,37(2):121-126. 被引量：1
10王众托,贺兆明,郑建德,吴绍明,王金城.火电电源规划的优化模型与程序系统[J].系统工程理论与实践,1985,5(3):45-53.

江西科学

2018年第4期

浏览历史

内容加载中请稍等...

基于大数据的数据清洗研究被引量：2

参考文献4

二级参考文献46

共引文献230

同被引文献25

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于大数据的数据清洗研究 被引量：2

参考文献4

二级参考文献46

共引文献230

同被引文献25

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于大数据的数据清洗研究被引量：2