基于动态分布式聚类算法的大数据查询处理方法被引量：14

Big Data Query Processing Method Based on Dynamic Distributed Clustering Algorithm

下载PDF

导出

摘要针对现有大数据空间查询处理方法存在执行时间长和查询结果不够准确的问题,提出一种基于动态分布式聚类算法的大数据查询处理方法,该方法分为数据预处理、数据聚类和查询处理3个部分.首先将输入数据划分为多个子集,以RRD格式存储在一组机器节点中;其次采用划分和层次混合动态聚类算法,在Apache Spark平台上对数据进行分布式聚类;最后通过K近邻查询方式获得高精度和高效率查询结果.实验结果表明,本文提出的方法具有可扩展性,可为空间查询处理提供高质量的结果,比其他查询方法更具优势. Aiming at the problems of long execution time and inaccurate query results in existing big data spatial query processing methods,a big data query processing method based on dynamic distributed clustering algorithm has been proposed,which includes data pre-processing,data clustering and query processing.Firstly,the method divides the input data into multiple subsets and stores them in a group of machine nodes in RRD format.Secondly,the partition and hierarchical hybrid dynamic clustering algorithm is used to cluster the data on Apache spark platform.And lastly,the high-precision and high-efficiency query results are obtained by K-Nearest Neighbor query.The experimental results show that the proposed method is scalable,and provides high quality results for spatial query processing,which has more advantages than other query methods.

作者唐运乐韦杏琼 TANG Yun-le;WEI Xing-qiong(School of Electromechanical and Information Engineering, Guangxi Vocational &Technical College, Nanning 530226, China;School of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China)

机构地区广西职业技术学院机电与信息工程学院广西民族大学信息科学与工程学院

出处《西南师范大学学报（自然科学版）》 CAS 2021年第5期134-139,共6页 Journal of Southwest China Normal University(Natural Science Edition)

基金广西教育厅自然科学基金项目(2019KY1220).

关键词大数据动态分布式聚类查询处理 Apache Spark big data dynamic distributed clustering query processing Apache Spark

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1徐哲,刘亮,秦小麟,秦伟萌.带关系属性的空间关键词并行查询处理算法[J].计算机科学,2019,46(B06):402-406. 被引量：3
2齐文,鲍玉斌,宋杰.基于列存储的大数据采样查询处理[J].计算机科学,2019,46(12):13-19. 被引量：4
3孙冬璞,谭洁琼.一种快速全局中心模糊聚类方法[J].哈尔滨理工大学学报,2019,24(4):110-117. 被引量：5
4Meifan ZHANG,Hongzhi WANG,Jianzhong LI,Hong GAO.Diversification on big data in query processing[J].Frontiers of Computer Science,2020,14(4):135-154. 被引量：1

二级参考文献7

1谢娟英,蒋帅,王春霞,张琰,谢维信.一种改进的全局K-均值聚类算法[J].陕西师范大学学报（自然科学版）,2010,38(2):18-22. 被引量：47
2武俊峰,艾岭.一种基于改进聚类算法的模糊模型辨识[J].哈尔滨理工大学学报,2010,15(3):1-5. 被引量：9
3任培花,王丽珍.不确定域环境下基于DKC值改进的K-means聚类算法[J].计算机科学,2013,40(4):181-184. 被引量：7
4申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：195
5李远成,阴培培,赵银亮.基于模糊聚类的推测多线程划分算法[J].计算机学报,2014,37(3):580-592. 被引量：19
6陈加顺,皮德常.一种非噪声敏感性的模糊C均值聚类算法[J].小型微型计算机系统,2014,35(6):1427-1431. 被引量：2
7吴明阳,张芮,岳彩旭,刘献礼,丁云鹏,朱磊.应用K-means聚类算法划分曲面及实验验证[J].哈尔滨理工大学学报,2017,22(1):54-59. 被引量：5

共引文献9

1刘献礼,宋厚旺,吴石,岳彩旭,Steven Y.Liang,李荣义.双转台五轴数控机床主轴热误差测量与建模[J].哈尔滨理工大学学报,2019,24(6):1-10. 被引量：5
2谈笑.基于模糊聚类的区域健康数据评价分析模型研究[J].电子设计工程,2021,29(3):13-17. 被引量：4
3李浩楠,刘勇.模糊神经网络的优化及其应用[J].哈尔滨理工大学学报,2020,25(6):142-149. 被引量：14
4刘解放,张志辉.面向大数据的并行聚类算法[J].计算机工程与设计,2021,42(8):2265-2270. 被引量：3
5林增坦,林增钰,黄紫成.深度双Q网络中低延迟高可靠数据查询算法[J].计算机仿真,2021,38(8):417-420. 被引量：1
6王涛涛,姚磊岳.面向智能交通系统的大数据分布式存储算法[J].计算机仿真,2022,39(1):138-142. 被引量：3
7张晶,康鹏,戴艳,杨新敏,李磊.基于蚁群优化的数字化审计系统数据快速查询方法[J].微型电脑应用,2022,38(6):94-97. 被引量：3
8曹丽娜,王霞,周瑛.基于模式匹配算法的空间属性数据挖掘仿真[J].计算机仿真,2022,39(9):273-276. 被引量：3
9马翔.全局搜索密度峰值聚类中心的线性回归方法研究[J].计算机与数字工程,2024,52(5):1353-1358.

同被引文献150

1张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：8
2胡世昌,李劲华,王常颖.基于二进制编码的Apriori改进算法[J].计算机应用研究,2020,37(2):398-400. 被引量：16
3孙广婷,李丹,周唯唯,张俊杰,牛萌,邹佳旭.云计算下Spark并行Apriori算法林业病虫害防治研究[J].森林工程,2018,34(4):45-51. 被引量：5
4刘倩,张可佳,李可扬.在群智感知网中提供差分隐私保护的研究[J].信息技术,2018,42(9):134-138. 被引量：1
5王冠男,杨镜非,王硕,端凌立,张嘉,武雅桐.考虑EV换电站调度和区块链数据存储的电网分布式优化[J].电力系统自动化,2019,43(8):110-127. 被引量：28
6季鼎承,蒋亦樟,王士同.基于域与样例平衡的多源迁移学习方法[J].电子学报,2019,47(3):692-699. 被引量：14
7张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3
8王鑫,徐强,柴乐乐,杨雅君,柴云鹏.大规模RDF图数据上高效率分布式查询处理[J].软件学报,2019,30(3):498-514. 被引量：9
9石敏,刘建勋,周栋,曹步清,文一凭.基于多重关系主题模型的Web服务聚类方法[J].计算机学报,2019,42(4):820-836. 被引量：19
10毛德磊,唐雁.基于归因理论用户偏好提取的协同过滤算法[J].计算机工程,2019,45(6):225-229. 被引量：5

引证文献14

1赵伟华.基于Spark视域下的分布式大数据算法分析——以计算机维修实验室管理系统为例[J].软件,2021,42(9):131-134. 被引量：1
2张国栋.基于MapReduce的IT运维终端用户数据查询方法[J].网络安全技术与应用,2023(5):63-65. 被引量：1
3许伟,胡婷.基于样本数据重复性的分布式数据库自动化查询方法[J].自动化技术与应用,2023,42(6):87-90. 被引量：1
4唐涛,张磊,段勇,杨立超,张泽.混淆查询区域下的电网多维数据聚合查询方法研究[J].自动化仪表,2023,44(8):73-78.
5沈芙辉,苏欣.基于对比阈值的大数据流特征量最优挖掘算法[J].计算机仿真,2023,40(11):319-323.
6胡媛媛,江春然,甘杜芬.基于群体智能算法的大数据分布式存储方法[J].计算机仿真,2023,40(11):447-451. 被引量：2
7宋钰.基于代价模型的联邦知识图谱查询方法[J].软件,2023,44(11):71-75.
8王彩霞,陶健.基于人工智能技术的分布式数据库重复记录自动检测系统设计[J].佳木斯大学学报（自然科学版）,2024,42(1):55-58. 被引量：3
9张丹丹,吕颍颍,黄鑫.非关系型分布式大数据多分辨率采集系统设计[J].自动化与仪器仪表,2023(10):139-143.
10吴浩,罗少辉,李颖昕,肖巧洁.基于聚类挖掘的科技数据价值动态监测方法[J].自动化技术与应用,2024,43(2):81-84.

二级引证文献8

1高唱.大数据的计算机数据分析管理系统设计[J].中国新通信,2022,24(20):41-43. 被引量：1
2柳旭,陆俊,龚钢军,侯昝宇,张春萌,刘博.面向光伏数据采集与存储的安全防护方法[J].综合智慧能源,2024,46(5):73-80.
3张剑.信息技术在地震勘探全周期管理中的探索与实践[J].信息与电脑,2024,36(7):58-60.
4童炜华.基于人工智能技术的分布式入侵检测系统设计[J].信息记录材料,2024,25(7):150-152. 被引量：2
5赵炜鸣,董明富,祝峰.信息技术系统运维管理的应用与实践分析[J].集成电路应用,2024,41(6):102-104.
6兰晓天.基于云计算技术的分布式存储系统数据传输功能优化[J].数字通信世界,2024(9):69-71.
7田艳芳.基于WebService的分布式数据库多层同步方法[J].成都工业学院学报,2024,27(6):51-56.
8宋菁,仲伟明,李莉莉.基于NLP的人工智能数据采集系统设计[J].电脑编程技巧与维护,2024(12):138-140.

1王官军,罗昌霞,汪龙,宋晔娜,唐祖胜,杨雪君.基于一维卷积神经网络的心肌梗死诊断研究[J].中国数字医学,2021,16(5):55-59.
2王昊,特日根.基于RESTful Web API服务架构的遥感影像检索技术研究[J].电子技术应用,2021,47(5):82-85. 被引量：9
3詹中华,沈同平,金力,黄方亮,许欢庆.一种基于机器学习的贫困家庭识别方法[J].通化师范学院学报,2021,42(6):74-79. 被引量：2
4张璐.云计算平台的医院后勤信息管理系统设计[J].电子设计工程,2021,29(12):19-22. 被引量：5
5王爱华.购物车结算功能中的PHP预处理应用[J].信息技术与信息化,2021(5):109-111. 被引量：1
6黄晟祺,许林瑞,汪玉笳,曾嫒,李功权.基于前后端交互的就医无忧系统的设计与实现[J].软件工程,2021,24(6):53-56. 被引量：8
7方毅,牛慧.机构投资者对资产误定价的影响:抑制还是推助?[J].暨南学报（哲学社会科学版）,2021,43(6):107-120. 被引量：5
8朱瑾,陈璞,俞璐.一种基于聚类的电台通联关系发现方法[J].通信技术,2021,54(6):1434-1439. 被引量：1
9郑淋文,周金治,黄静.一种基于LKDP-FCM的心电特征分类方法[J].制造业自动化,2021,43(6):31-36.
10刘影,李国庆,钱志鸿,刘丹.采用确定性信号传播模型的普适寻优定位方法[J].重庆邮电大学学报（自然科学版）,2021,33(3):378-386. 被引量：4

西南师范大学学报（自然科学版）

2021年第5期

浏览历史

内容加载中请稍等...

基于动态分布式聚类算法的大数据查询处理方法被引量：14

参考文献4

二级参考文献7

共引文献9

同被引文献150

引证文献14

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于动态分布式聚类算法的大数据查询处理方法 被引量：14

参考文献4

二级参考文献7

共引文献9

同被引文献150

引证文献14

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于动态分布式聚类算法的大数据查询处理方法被引量：14