基于Parameter Server框架的大数据挖掘优化算法被引量：16

Optimization algorithm for big data mining based on parameter server framework

导出

摘要基于大数据挖掘的实时性要求和数据样本的多样性特征,提出一种面向大数据挖掘的机器学习模型训练优化算法。分析当前算法的迭代计算过程,根据模型向量的改变量将迭代过程分为粗调和微调两个阶段,并发现在微调阶段绝大部分样本对计算结果的影响极小,因此可以在微调阶段不计算此类样本的梯度而直接采用上次迭代的计算结果,从而减小计算量,提升计算效率。试验结果表明,算法在分布式集群环境下可以减小模型训练约35%的计算量,且训练得到的模型准确度在正常范围内,可有效提高大数据挖掘的实时性。 Traditional machine learning algorithms for small data were not applicable for mining of big data. An optimization algorithm for machine learning and big data mining was proposed. The iterative computation of machine learning algorithms was divided into two phases according to the change of model vector. According to the observation that most samples contributed little to the model update during the iteration,the computation load of machine learning algorithms could be reduced by reusing the iterative computing results of this kind of samples. The experimental results showed that the proposed method could reduce the computation load by 35%,with little effect on prediction accuracy of the training model.

作者刘洋刘博王峰

机构地区河南财经政法大学云计算与大数据研究所华中科技大学计算机学院

出处《山东大学学报（工学版）》 CAS 北大核心 2017年第4期1-6,共6页 Journal of Shandong University（Engineering Science）

基金河南省重点科技攻关资助项目(162102210096 152102210088 142102210090) 河南省高等学校重点科研资助项目(18A520014)

关键词大数据分布式系统机器学习样本差异性优化算法 big data distributed system machine learning sample diversity optimization

分类号 TU457 [建筑科学—岩土工程]

引文网络
相关文献

参考文献10

1张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：379
2王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：717
3张蕾,章毅.大数据分析的无限深度神经网络方法[J].计算机研究与发展,2016,53(1):68-79. 被引量：79
4耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62
5刘红岩,陈剑,陈国青.数据挖掘中的数据分类算法综述[J].清华大学学报（自然科学版）,2002,42(6):727-730. 被引量：169
6何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：331
7吴启晖,邱俊飞,丁国如.面向频谱大数据处理的机器学习方法[J].数据采集与处理,2015,30(4):703-713. 被引量：21
8程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：747
9郭迟,刘经南,方媛,罗梦,崔竞松.位置大数据的价值提取与协同挖掘方法[J].软件学报,2014,25(4):713-730. 被引量：54
10陈国良,毛睿,陆克中.大数据并行计算框架[J].科学通报,2015,60(5):566-569. 被引量：6

二级参考文献300

1刘经南.泛在测绘与泛在定位的概念与发展[J].数字通信世界,2011(S1):28-30. 被引量：31
2宋国杰,唐世渭,杨冬青,王腾蛟.数据流中异常模式的提取与趋势监测[J].计算机研究与发展,2004,41(10):1754-1759. 被引量：19
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
5刘红岩.可扩展的快速分类算法的研究与实现[M].北京:清华大学出版社,2000..
6Big data. Nature, 2008, 455(7209): 1-136.
7Dealing with data. Science,2011,331(6018): 639-806.
8Holland J. Emergence: From Chaos to Order. RedwoodCity,California: Addison-Wesley? 1997.
9Anthony J G Hey. The Fourth Paradigm: Data-intensiveScientific Discovery. Microsoft Research, 2009.
10Phan X H, Nguyen L M,Horiguchi S. Learning to classifyshort and sparse text Web with hidden topics from large-scale data collections//Proceedings of the 17th InternationalConference on World Wide Web. Beijing, China,2008:91-100.

共引文献2420

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：16
2王璟.大数据时代背景下西安市大数据商业应用模式研究[J].质量与市场,2021(10):171-172. 被引量：2
3熊华.提高领导艺术的路径探析[J].作家天地,2020(17):191-191.
4郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
5刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
6吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：30
7冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
8谭宇辰,蔡晶晶,倪辰.基于深度学习的Web攻击检测技术研究[J].信息网络安全,2020(S02):122-126.
9师洪波,郭红梅,岳婷,钱力,黄定余,常志军.基于分布式大数据技术的科学计量模块化分析平台构建研究[J].数据分析与知识发现,2020,4(2):231-238. 被引量：3
10张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2

同被引文献129

1鲁为,王枞.决策树算法的优化与比较[J].计算机工程,2007,33(16):189-190. 被引量：19
2周云海,胡翔勇,罗斌.基于案例推理的大停电恢复系统设计[J].电力系统自动化,2007,31(18):87-90. 被引量：9
3张小峰,张志旺,逄珊.基于通信系统的决策树构造算法[J].山东大学学报（工学版）,2011,41(4):79-84. 被引量：1
4丁杰,奚后玮,韩海韵,周爱华.面向智能电网的数据密集型云存储策略[J].电力系统自动化,2012,36(12):66-70. 被引量：36
5宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：543
6杨成月.基于物联网与空间信息技术的电网应急指挥系统[J].电网技术,2013,37(6):1632-1638. 被引量：36
7薛禹胜,吴勇军,谢云云,文福拴,董朝阳,赵俊华,鞠平.停电防御框架向自然灾害预警的拓展[J].电力系统自动化,2013,37(16):18-26. 被引量：87
8王正新,刘思峰.基于Fourier-GM(1,1)模型的灾害应急物资需求量预测[J].系统工程,2013,31(8):60-64. 被引量：16
9付仲良,周凡,逯跃锋.基于GIS技术的电网应急态势标绘[J].山东大学学报（工学版）,2013,43(4):1-6. 被引量：3
10何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10

引证文献16

1张晓婷,李茵,唐晶磊.基于优化聚类算法的大数据分流系统设计仿真[J].计算机仿真,2018,35(12):204-207. 被引量：6
2唐新宇,陈晓明.基于大数据特征的深度计算评估模型算法设计与研究[J].软件工程,2018,21(7):39-41. 被引量：1
3于淑香,王浩.基于大数据分析的网络安全系统优化算法改进研究[J].软件工程,2018,21(6):44-46. 被引量：3
4庞金香,隋萌萌.同态加密隐私保护数据高效智能挖掘仿真[J].计算机仿真,2019,36(6):316-319. 被引量：5
5韩龙龙,姜金卿,王花清.大数据分析下上网行为信息特征快速挖掘仿真[J].计算机仿真,2019,36(6):346-349. 被引量：3
6蔡波.基于混沌时间序列预测的多源数据转换算法设计[J].国外电子测量技术,2019,38(6):140-144. 被引量：1
7田彬.分布式计算框架下的大数据机器学习[J].电子技术与软件工程,2019,0(20):168-169. 被引量：2
8章博,卢峰,董寒宇,陈清泰,林振智,王洪涛.基于决策树和数据驱动的零电量用户筛选方法[J].山东大学学报（工学版）,2019,49(5):29-36. 被引量：7
9熊菊霞,吴尽昭.异构复杂信息网络敏感数据流动态挖掘[J].计算机工程与科学,2020,42(4):628-633. 被引量：17
10潘世成,郑国标,赵耀.基于分布式计算框架的大数据机器学习分析[J].电子设计工程,2020,28(11):79-83. 被引量：2

二级引证文献62

1胡常礼,邵剑飞.基于分布式计算框架的机器学习系统分析[J].电视技术,2021,45(11):115-118. 被引量：2
2黄一躬,周超,侯跃辉,陈建霖,阎春平.汽车壳体类零件加工生产线运行状态监控系统的设计与实现[J].中国科技论文在线精品论文,2022(1):31-42. 被引量：2
3蒙杨.基于机器学习的数据脱敏系统研究与设计[J].电子技术与软件工程,2019,0(23):178-179. 被引量：4
4华艳.基于大数据背景的数据挖掘技术算法研究[J].信息技术与信息化,2019,0(12):116-118. 被引量：3
5郑倩倩.大数据背景下智能网络信息管理系统优化设计[J].信息通信,2020,0(1):175-177. 被引量：7
6张曦月.大数据环境下的网络安全问题及对策[J].信息与电脑,2020,32(6):174-175. 被引量：3
7许汪歆,袁天辰,杨俭.基于密度聚类算法的轨道结构故障诊断研究[J].上海工程技术大学学报,2020,34(1):1-8. 被引量：1
8杨家成.基于过滤驱动的SAP系统文件输出安全策略研究[J].网络安全技术与应用,2020(6):41-46.
9鲍海燕,芦彩林.基于改进RSA算法的隐私数据集同态加密方法[J].太赫兹科学与电子信息学报,2020,18(5):929-933. 被引量：11
10吴嘉萍,娄必丹,刘继平,李亚敏,卫然.基于数据挖掘研究针灸治疗功能失调性子宫出血经穴规律[J].陕西中医,2020,41(12):1817-1821. 被引量：3

1陈慧.燃气分布式系统初步探讨[J].科技资讯,2017,15(17):18-19. 被引量：1
2廖睿.实用新型专利[J].中国陶瓷工业,2017,24(4):67-70.

山东大学学报（工学版）

2017年第4期

浏览历史

内容加载中请稍等...

基于Parameter Server框架的大数据挖掘优化算法被引量：16

参考文献10

二级参考文献300

共引文献2420

同被引文献129

引证文献16

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

基于Parameter Server框架的大数据挖掘优化算法 被引量：16

参考文献10

二级参考文献300

共引文献2420

同被引文献129

引证文献16

二级引证文献62

相关作者

相关机构

相关主题

浏览历史

基于Parameter Server框架的大数据挖掘优化算法被引量：16