基于改进的分布式K-Means特征聚类的海量场景图像检索被引量：5

MASSIVE SCENE IMAGE RETRIEVAL BASED ON IMPROVED DISTRIBUTED K-MEANS FEATURE CLUSTERING

下载PDF

导出

摘要针对传统的图像检索方法在处理海量数据时面临的问题,提出一种基于改进的分布式K-Means特征聚类的海量场景图像检索方法。对分布式K-Means算法进行改进,优化了初始聚类中心的选择和迭代过程,并将其应用与场景图像的特征聚类中;充分利用Hadoop分布式平台的海量存储能力和强大并行计算能力,提出了海量场景图像的存储和检索方案,设计了场景图像特征提取、特征聚类以及图像检索三个阶段分布式并行处理的Map和Reduce任务。多组实验表明,提出的方法数据伸缩率曲线平缓,取得了优良的加速比,效率大于0.6,检索的平均准确率达到了88%左右,适合海量场景图像数据的检索。 Concerning that traditional image retrieval methods are confronted with the problems when processing massive data,we put forward a retrieval method for massive scene images,which is based on improved k-means feature clustering.We improved the distributed K-means algorithm,optimised the selection of initial cluster centres and the iteration procedure,and applied it to feature clustering of scene images.We made full use of the massive storage capacity and the powerful parallel computing ability of Hadoop distributed platform,proposed the storage and retrieval scheme on massive scene image,and designed the Map and Reduce tasks of three-phase distributed parallel processing on scene image with feature extraction,feature clustering and image retrieval.Sets of experiments demonstrated that the proposed method has gentle curve of data expansion rate,achieves good speedup ratio,the efficiency is greater than 0.6,and the average accuracy rate of retrieval reaches about 88%.The proposed scheme is suitable for large-scale scene image data retrieval.

作者崔红艳曹建芳 Cui Hongyan;Cao Jianfang(Department of Computer Science and Technology ,Xinzhou Teachers University, Xinzhou 034000, Shanxi, China)

机构地区忻州师范学院计算机科学与技术系

出处《计算机应用与软件》 CSCD 2016年第6期195-199,267,共6页 Computer Applications and Software

基金国家自然科学基金项目(61202163) 山西省高校大学生创新创业训练项目(2014383) 山西省自然科学基金项目(2013011017-2) 忻州师范学院重点学科专项课题(XK201308)

关键词 Hadoop分布式平台 MAPREDUCE 分布式K-Means算法特征聚类场景图像检索 Hadoop distributed platform MapReduce Distributed k-means algorithm Feature clustering Scene image retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Almeer M H.Cloud Hadoop mapreduce for remote sensing image analysis[J].Journal of Emerging Trends in Computing and Information Sciences,2012,3(4):637-644.
2朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699. 被引量：27
3Neha A,Kirii A.A mid-point based k-mean clustering algorithm for Datamining[J].International Journal on Computer Science and Engineering,2012,4(6):1174-1180.
4张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
5韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19
6赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
7金伟健,王春枝.适于进化算法的迭代式MapReduce框架[J].计算机应用,2013,33(12):3591-3595. 被引量：16
8Wiley K,Connolly A,Krughoff S,et al.Astronomical image processing with Hadoop [C]Proceedings of the 20th Conference on Astronomical Data Analysis Software and Systems.San Francisco:Astronomical Societyof the Pacific,2011:93-96.
9朱义明.基于Hadoop平台的图像分类[J].西南科技大学学报,2011,26(2):70-73. 被引量：12
10Sweeney C,Liu L,Arietta S,et al.HIPI:a Hadoop image processing interface for image-based mapreduce tasks [D].Charlattesville: Universityof Virginia,2011.

二级参考文献64

1李清勇,胡宏,施智平,史忠植.基于纹理语义特征的图像检索研究[J].计算机学报,2006,29(1):116-123. 被引量：25
2黄元元,何云峰.一种基于颜色特征的图像检索方法[J].中国图象图形学报,2006,11(12):1768-1773. 被引量：8
3Han J W, Kamber M. Data mining: concepts and techniques [M]. San Francisco, US: Morgan Kaufmann, 2001.
4Buyya R, Yeo C S, Venugopal S. Market-oriented cloud computing: vision,hype, and reality for delivering IT services as computing utilities, Keynote Paper [C] // Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications. Dalian, China, 2009 :25-27.
5Armbrust M, Fox A. Above the clouds: a Berkeley view of cloud computing[R]. USA: University of California at Berkeley, 2009.
6Erdogmus H. Cloud computing., does nirvana hide behind the nebula[J]. IEEE Software, 2009,26 (2) : 4-6.
7Ghemawat S,Gobioff H, Leung S. The google file system[J].S ACM SIGOPS Operating Systems Review, 2003,37 (5) : 29-43.
8Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters [C] /// Proceedings of Operating Systems Design and Implementation. San Franciseo, CA, 2004 : 137-150.
9Xu X W, Jager J, Kriegel H P. A fast parallel clustering algorithm for large spatial databases[J]. Data Mining and Knowledge Discovery,1999,3(3) :263-290.
10Savaresi S M, Boley D. On the Performance of Bisecting K-Means and PDDP[C]//Proc. of the 1st SIAM International Conference on Data Mining. Chicago, USA: [s. n.], 2001: 1-14.

共引文献187

1许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
4张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
5徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
6杨阳,张为群,刘枫,黄仁杰.基于MapReduce自适应参数的粗糙K-modes算法研究[J].计算机科学,2012,39(11):149-152.
7刘树仁,宋亚奇,朱永利,王德文.基于Hadoop的智能电网状态监测数据存储研究[J].计算机科学,2013,40(1):81-84. 被引量：51
8张磊,张公让,张金广.一种网格化聚类算法的MapReduce并行化研究[J].计算机技术与发展,2013,23(2):60-64. 被引量：3
9曹磊,程建来.图像聚类的并行化[J].计算机与现代化,2013(2):15-18.
10汤羽,刘家志,甘华平,陈文,冯昌琪,卜长清.基于云架构的区域卫生信息系统平台设计与思考[J].中国卫生信息管理杂志,2013,10(2):96-104. 被引量：18

同被引文献56

1魏良针.基于支持向量机的铁路周边地表沉降变形量预测[J].中国安全生产科学技术,2019,15(S01):90-94. 被引量：5
2孙力威,王艳,方晓,于秀捷,刘力威,刘晓梅.降水自记纸数字化处理系统常见问题及解决方法[J].辽宁气象,2004(4):40-40. 被引量：2
3王伯民,吕勇平,张强.降水自记纸彩色扫描数字化处理系统[J].应用气象学报,2004,15(6):737-744. 被引量：54
4朱尽文,王志峻,汪青春.“降水自记纸数字化处理系统”简介及数字化处理时应注意的问题[J].青海气象,2006(2):87-88. 被引量：5
5吴名杰.降水自记纸数据化处理常见问题及解决方法[J].气象研究与应用,2007,28(A02):175-176. 被引量：5
6王易偱,赵勋杰.基于K均值聚类分割彩色图像算法的改进[J].计算机应用与软件,2010,27(8):127-130. 被引量：36
7贲志伟,赵勋杰.基于改进的K均值聚类算法提取彩色图像有意义区域[J].计算机应用与软件,2010,27(9):11-13. 被引量：12
8傅卫平,秦川,刘佳,杨世强,王雯.基于SIFT算法的图像目标匹配与定位[J].仪器仪表学报,2011,32(1):163-169. 被引量：121
9彭江华,黄祖辉.降水自记纸彩色图形数字化的技术处理[J].气象,2011,37(2):249-253. 被引量：12
10周玉文,姚双龙,翁窈瑶,李骥,李萍,张晓昕,王强.城市暴雨强度公式数据采样新方法[J].中国给水排水,2012,28(6):9-12. 被引量：5

引证文献5

1阮威.一种基于SIFT特征权排序多图关联图像搜索方法[J].电子设计工程,2019,27(2):179-184. 被引量：2
2张莹,郭红梅,尹文刚,赵真,冉青.基于SIFT特征与SVM分类的地震灾情图像信息异常检测方法[J].地震研究,2019,42(2):265-272. 被引量：4
3陈鹏,程思,鲍婷婷,翟伶俐,王宏斌.基于二分K均值聚类算法的数字档案优化[J].气象科技,2019,47(6):1032-1036. 被引量：4
4曾宝国,尹文刚.基于SIFT与SVM的应急救援图像检测方法研究[J].中国安全生产科学技术,2020,16(8):186-192. 被引量：7
5汪世平,邹志杨,陈洪涛,蔡慧.基于变异系数法和K⁃means的电能表状态评价方法[J].山东电力技术,2022,49(3):29-35. 被引量：6

二级引证文献23

1曾宝国,尹文刚.基于SIFT与SVM的应急救援图像检测方法研究[J].中国安全生产科学技术,2020,16(8):186-192. 被引量：7
2但松健.基于多核聚类算法和用户兴趣模型的图像搜索方法[J].山东农业工程学院学报,2020,37(9):39-45.
3齐倩倩,佟华,陈静.GRAPES-GEPS K-均值集合预报产品开发及应用[J].气象科技,2021,49(4):542-551. 被引量：3
4杨焰飞,曹阳.改进YOLOv3的无人机拍摄图玻璃绝缘子检测[J].计算机工程与应用,2022,58(3):259-265. 被引量：12
5杨红云,黄琼,孙爱珍,王映龙,肖小梅,罗建军.基于卷积神经网络和支持向量机的水稻种子图像分类识别[J].中国粮油学报,2021,36(12):144-150. 被引量：13
6陈波,王芳,肖本夫.“情景-应对”型理论体系的发展及其在地震灾害应急管理中的应用探讨[J].震灾防御技术,2021,16(4):605-616. 被引量：12
7谢泗薪,李春华.应急救援情景下航空物流企业社交媒体印象管理策略研究--基于数字化情绪感染视角[J].价格月刊,2022(5):76-88. 被引量：4
8方锦文,何晋乐,许潼歆.个性化高校信息推送方案研究[J].信息与电脑,2022,34(7):171-173.
9吴南辉,沈炎松.英汉翻译语法误译校正方法研究——基于K均值聚类[J].漳州职业技术学院学报,2022,24(2):67-75.
10赵永国.基于数据挖掘算法的智慧档案馆海量数据快速提取方法[J].自动化技术与应用,2022,41(9):40-43. 被引量：3

1我有我主张[J].微型计算机,2004(2):127-127.
2谭跃生,杨宝光,王静宇,张亚楠.Hadoop云平台下的聚类算法研究[J].计算机工程与设计,2014,35(5):1683-1687. 被引量：6
3青云.机器越来越像生物[J].大科技（科学之谜）（A）,2004(3):36-37.
4朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699. 被引量：27
5刘向东,刘奎,胡飞翔,王翠荣.基于MapReduce的并行聚类算法设计与实现[J].计算机应用与软件,2014,31(11):251-256. 被引量：10
6赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
7赵东,韩晓艳,赵宏伟,于繁华.基于分类优化的物联网节点负载均衡策略[J].吉林大学学报（工学版）,2015,45(3):926-931. 被引量：4
8最强可3D打印弹性体诞生! 伸缩率1100%[J].塑料科技,2017,45(3):60-60.
9李晓峰.云平台中大数据并行聚类方法优化研究仿真[J].计算机仿真,2016,33(7):327-330. 被引量：8
10郭鑫,颜一鸣.一种动态云模型下树数据挖掘算法[J].小型微型计算机系统,2013,34(12):2749-2752. 被引量：8

计算机应用与软件

2016年第6期

浏览历史

内容加载中请稍等...

基于改进的分布式K-Means特征聚类的海量场景图像检索被引量：5

参考文献13

二级参考文献64

共引文献187

同被引文献56

引证文献5

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于改进的分布式K-Means特征聚类的海量场景图像检索 被引量：5

参考文献13

二级参考文献64

共引文献187

同被引文献56

引证文献5

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于改进的分布式K-Means特征聚类的海量场景图像检索被引量：5