云计算海量高维大数据特征选择算法研究被引量：5

Research on Feature Selection Algorithm of Massive High Dimensional Big Data in Cloud Computing

下载PDF

导出

摘要为了有效分析云计算环境下的海量高维大数据,需要对数据进行特征选择处理,针对云计算大数据的高动态与高维度特征,提出了基于竞争熵加权结合稀疏原理的在线学习特征选择算法。首先在熵加权迭代的过程中,采用了竞争合并方式对熵加权计算进行优化,降低数据处理的维度,提高算法对高维数据的处理能力;然后引入稀疏分数将局部数据对应的特征做标记,同时根据各自的重要程度排序,去除掉大数据源中的冗余数据;最后,将合并熵加权与稀疏原理应用于在线学习算法框架中,进一步提高算法对高维数据流的处理效率。实验结果验证了提出的算法提高了聚类精度,有效提高了云计算环境下海量高维大数据特征选择的准确性。 In order to effectively analyze the massive high-dimensional big data in the cloud computing environment,the data need to be processed by feature selection.Aiming at the high dynamic and high dimensional characteristics of cloud computing big data,an online learning feature selection algorithm based on competitive entropy weighting and sparse principle was proposed.First of all,in the process of entropy weighted iteration,the method of competitive combination was adopted to optimize the entropy weighted calculation and lower the dimensions of data processing.The processing ability of the algorithm to high dimensional data was improved.Then,sparse score was introduced to mark the corresponding features of local data,at the same time,according to their importance,redundant data were removed from large data sources.Finally,the combined entropy weighting and sparse principle were applied to the framework of online learning algorithm.The processing efficiency of the algorithm for high dimensional data streams was further improved.The experimental results show that the proposed algorithm can improve the clustering accuracy,and the accuracy of feature selection of massive high-dimensional big data in cloud computing environment is improved.

作者胡晶 HU Jing(Fuzhou Institute of Technology,Fuzhou 350050,China)

机构地区福州理工学院

出处《计算机仿真》北大核心 2019年第4期190-193,共4页 Computer Simulation

基金 2016年教育厅科技类课题JAT160619<基于云存储的高校实时推送技术研究> 2017年福建省高等学校学科带头人培养计划国内访问学者项目(闽教师[2017]87号)

关键词云计算大数据熵加权稀疏原理在线学习 Cloud computing Big data Entropy weighted Sparse principle Online learning

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1张彬桥.云环境下计算资源调度策略与仿真研究[J].计算机仿真,2013,30(11):392-395. 被引量：16
2WANG Changying,CHU Jialan,TAN Meng,SHAO Fengjing,SUI Yi,LI Shujing.An automatic detection of green tide using multi-windows with their adaptive threshold from Landsat TM/ETM plus image[J].Acta Oceanologica Sinica,2017,36(11):106-114. 被引量：4
3吴涛,陈黎飞,郭躬德.优化子空间的高维聚类算法[J].计算机应用,2014,34(8):2279-2284. 被引量：27
4邱保志,贺艳芳,申向东.熵加权多视角核K-means算法[J].计算机应用,2016,36(6):1619-1623. 被引量：5
5李志杰,李元香,王峰,何国良,匡立.面向大数据分析的在线学习算法综述[J].计算机研究与发展,2015,52(8):1707-1721. 被引量：38
6万中英,王明文,左家莉,万剑怡.结合全局和局部信息的特征选择算法[J].山东大学学报（理学版）,2016,51(5):87-93. 被引量：2
7许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
8吴杰祺,李晓宇,袁晓彤,刘青山.利用坐标下降实现并行稀疏子空间聚类[J].计算机应用,2016,36(2):372-376. 被引量：5

二级参考文献141

1李波,石冰心,沈斌.可用性约束资源预留与分配算法[J].计算机科学,2005,32(2):28-30. 被引量：2
2王生生,刘大有,曹斌,刘杰.一种高维空间数据的子空间聚类算法[J].计算机应用,2005,25(11):2615-2617. 被引量：12
3HanJ,KamberM.数据挖掘:概念与技术[M].范明,盂小峰,译.2版.北京:机械工业出版社,2007.
4H Jin, et al. Data management Services and Transfer Scheme in China Grid[J]. International Journal of Web and Grid Services, 201,3(4) :447-461.
5C G Xie, H Alazemi, N Ghani. Remuting in advance reservation networks[ J ]. Computer Communications, 2012,35 ( 10 ) :411 - 1421.
6R N Calheiros, R Ranjan, R Beloglazov. CloudSim: a toolkit for modeling and simulation of cloud computing environments and eval- uation of resource provisioning algorithms[ J]. Software : Practice and Experience, 2012,41 ( 1 ) :23-50.
7B Rochwerger, et al. The Reservoir Model and Architecture for Open Federated Cloud Computing [ J ]. IBM Journal of Research and Development, 2009,53 ( 4 ) : 1 - 17.
8L Y Chuang, T S Wei, Y C Yhong. Chaotic catfish particle swarm optimization for solving global numerical optimization problems [ J ]. Applied Mathematics and Computation, 2011, 217:6900-6916.
9JAIN A,MURTY M,FLYNN P J.Data clustering:a review [J].ACM Computing Surveys,1999,31(3):264-323.
10LEOPOLD E,KINDERMANN J.Text categorization with support vector machines:how to represent texts in input space? [J].Machine Learning,2002,46(1/2/3):423-444.

共引文献137

1陈旭文,林若波.云存储在高校信息化管理中的应用研究[J].兰州文理学院学报（自然科学版）,2013,27(4):70-73. 被引量：4
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
3陈旭文,黄英铭.海量视频点播系统的云计算技术与建模实现[J].现代电子技术,2013,36(14):10-12. 被引量：6
4杨浩,滕飞,李天瑞,李曌.Hadoop平台中空闲时间调度器的设计与实现[J].计算机工程与科学,2013,35(10):125-130. 被引量：6
5李艺颖,邓皓文,王思齐,龙军.基于机器学习和NetFPGA的智能高速入侵防御系统[J].信息网络安全,2014(2):12-19. 被引量：7
6段新东,林玉香,张鑫.基于智能化自学习方式的入侵检测防护系统设计与实现[J].信息网络安全,2014(2):20-26. 被引量：6
7李卫,王文贤.QVOD资源爬行系统的研究与实现[J].信息网络安全,2014(2):81-85. 被引量：1
8申一鸣,申怀亮.基于Hadoop 架构的校园信息系统研究[J].中国电子商务,2013(24):58-59. 被引量：1
9刘友华,周素芳.国内外云平台技术专利实证分析[J].情报杂志,2014,33(5):54-59. 被引量：4
10李应.基于倾斜概率的有效数据聚类数学模型[J].西南师范大学学报（自然科学版）,2014,39(9):116-120.

同被引文献27

1张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：20
2叶澜.时代精神与新教育理想的构建——关于我国基础教育改革的跨世纪思考[J].教育研究,1994,15(10):3-8. 被引量：229
3张路安,马晓丽.逻辑思维与非逻辑思维的关系研究[J].教育探索,2007(9):1-2. 被引量：8
4尤肖虎,潘志文,高西奇,曹淑敏,邬贺铨.5G移动通信发展趋势与若干关键技术[J].中国科学：信息科学,2014,44(5):551-563. 被引量：717
5吴华芹.云计算海量光纤数据的差异化调度研究[J].激光杂志,2019,40(1):155-158. 被引量：2
6张梓童,张春雷,张艳,张栋,高世臣.数据空间结构性及在KNN算法中的应用[J].数学的实践与认识,2019,49(1):195-202. 被引量：6
7余征,龚勋,李天瑞,张钧波.Hadoop的小图片处理技术及其在人脸特征提取上的应用[J].小型微型计算机系统,2015,36(8):1891-1895. 被引量：6
8梁国军,谢垂益,胡伶俐,林昊,李景炤.UCT算法在不围棋博弈中的实现[J].韶关学院学报,2015,36(8):17-21. 被引量：5
9刘瀚骏.传播学视角下人工智能技术在传播领域的应用[J].中国传媒科技,2017,0(8):77-78. 被引量：11
10马伊颀,段乐川.教育出版融合发展刍议:市场、产品和模式[J].中国编辑,2018(7):39-42. 被引量：12

引证文献5

1张宏煜.构建基础教育数字化新出版模式[J].传媒论坛,2021,4(23):91-93. 被引量：1
2邹佩耘,周安平.5G时代教育出版升级的机遇与困境[J].出版发行研究,2020,0(1):33-36. 被引量：12
3刘云,肖雪,黄荣乘.混合蒙特卡罗搜索的特征选择算法的优化[J].信息技术,2020,44(5):28-31. 被引量：1
4周翔,翟俊海,黄雅婕,申瑞彩,侯璎真.大数据环境下的投票特征选择算法[J].小型微型计算机系统,2022,43(5):936-942. 被引量：1
5梁浩,杨伟伟,周娟,王辉华,陈龙.基于云计算平台的运维监控系统数据检测算法研究[J].自动化技术与应用,2023,42(4):87-91. 被引量：1

二级引证文献16

1庞伟,姜华升.5G模式下品牌艺术教学的创新思考[J].品牌研究,2020,0(7):114-115. 被引量：2
2徐婧.5G通信技术以及其应用趋势[J].卫星电视与宽带多媒体,2020,0(3):21-22. 被引量：1
3谢清风.教育出版高质量发展的六个向度[J].科技与出版,2021(1):36-42. 被引量：7
4张岩.5G时代下教育出版的困难与机遇[J].采写编,2021(6):28-29.
5李顺勇,王改变.一种新的最大相关最小冗余特征选择算法[J].智能系统学报,2021,16(4):649-661. 被引量：6
6戴砚亮.数字教育出版平台中交互式媒介叙事的特征与建构[J].出版发行研究,2021(8):39-44. 被引量：5
7姚五民.职业教育教材发展的问题及对策[J].出版参考,2021(8):83-85. 被引量：3
8冯潇哲,文涛,刘扬.MEC在教育信息化发展中的应用探讨[J].邮电设计技术,2021(9):26-30.
9何昌贵.高校体育教改与教材数字化出版并轨问题探究[J].拳击与格斗,2021(22):39-40. 被引量：1
10陈旭.风险视域下教育数字出版发展的困境与对策[J].西部财会,2022(4):76-79. 被引量：1

1任国友.石油工人工匠精神的传承性研究[J].中国劳动关系学院学报,2018,32(A01):138-142.
2祁媛.人工智能对广告传播的影响[J].科技传播,2018,10(19):144-145. 被引量：3
3陆梅.精细化管理在消毒供应室腔镜器械中的应用[J].实用临床护理学电子杂志,2019,4(6):168-168. 被引量：2
4孙俊霞.小麦高产栽培技术浅析[J].农民致富之友,2019(5):16-16. 被引量：2
5石乐天.大数据下计算机软件技术的应用分析[J].信息与电脑,2019,31(5):18-19. 被引量：1
6陈尧丰,曹智翔.一种基于欧氏簇提取的城市点云分类方法[J].测绘科学技术,2019,7(1):5-11.
7彭向阳,刘洋,王柯,张泊宇,钱金菊,陈驰,杨必胜.利用卷积神经网络进行绝缘子自动定位[J].武汉大学学报（信息科学版）,2019,44(4):563-569. 被引量：15
8孙成银.山东莱西小麦种植技术要点[J].农业工程技术,2019,39(5):62-62.
9黄涛,郑顺林,徐成勇,沙马拉哈,余显荣,沈学善,王西瑶.四川凉山马铃薯堆栽技术初探[J].四川农业科技,2019(1):15-16. 被引量：1
10国务院要求:社保缴费基数和费率实行"双降"[J].印制电路资讯,2019,0(3):76-76.

计算机仿真

2019年第4期

浏览历史

内容加载中请稍等...

云计算海量高维大数据特征选择算法研究被引量：5

参考文献8

二级参考文献141

共引文献137

同被引文献27

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

云计算海量高维大数据特征选择算法研究 被引量：5

参考文献8

二级参考文献141

共引文献137

同被引文献27

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

云计算海量高维大数据特征选择算法研究被引量：5