-
题名并行SVM算法在Flink平台的应用研究
被引量:4
- 1
-
-
作者
白玉辛
刘晓燕
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2021年第5期1003-1007,共5页
-
基金
国家自然科学基金项目(61462055)资助.
-
文摘
在大数据时代背景下,数据规模成指数级增长,传统支持向量机(SVM)已无法适应大数据环境,所以需要将传统支持向量机算法改进使其可以应用于大数据计算框架.针对计算过程中存在占用内存大、寻优速度慢等问题,提出一种基于Flink平台的并行支持向量机算法.该方法首先基于层叠支持向量机(Cascade SVM)的合并策略以及训练结构,通过Flink分布式计算框架实现;其次,通过优化并行操作算子的性能引入分布式广播变量,优化算法,有效解决单机SVM算法训练效率低的问题.实验结果表明,结合Flink框架实现SVM算法并行化,能有效的减少了训练时间,提高模型的训练效率.
-
关键词
并行计算
支持向量机
大规模数据集处理
Flink
-
Keywords
parallel computing
support vector machine
large-scale dataset processing
Flink
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名Hadoop与Flink应用场景研究
被引量:6
- 2
-
-
作者
白玉辛
刘晓燕
-
机构
昆明理工大学
-
出处
《通信技术》
2020年第6期1559-1568,共10页
-
基金
国家自然科学基金(No.61462055)。
-
文摘
随着大数据时代的到来,大数据的计算框架层出不穷且各有特点。为了满足开发人员在不同场景下选择适合的计算框架进行数据处理的需求,采用对比与分析目前流行的Hadoop与Flink开发平台的应用场景。首先介绍两种大数据计算框架的技术原理和各自的生态系统,其次详细分析两者的优缺点和应用场景,最后给出Hadoop适用于ETL、日志分析、数据挖掘与机器学习场景等,Flink适用于批处理与流处理、图计算、数据挖掘与机器学习场景等,方便了开发人员根据应用场景来选择计算框架。
-
关键词
大数据
HADOOP
Flink
应用场景
流处理
-
Keywords
big data
Hadoop
Flink
application scenario
stream processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-