期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究
1
作者 高丰伟 田睿 +1 位作者 周浩 胡洁 《四川林业科技》 2023年第5期24-31,共8页
应用阿尔及利亚森林火灾数据,通过Spark MLlib中的决策树算法,提出过滤相关性高的特征参数提升模型性能,对森林火灾进行预测研究。对温度、风速、雨及加拿大森林火险气候指数(FWI)系统中主要指标等特征参数,结合森林火灾的分类情况,使... 应用阿尔及利亚森林火灾数据,通过Spark MLlib中的决策树算法,提出过滤相关性高的特征参数提升模型性能,对森林火灾进行预测研究。对温度、风速、雨及加拿大森林火险气候指数(FWI)系统中主要指标等特征参数,结合森林火灾的分类情况,使用信息增益标准为Gini的二叉决策树,建立基于决策树的火灾预测模型,对样本数据进行分类预测;提出分析不同特征参数之间的相关性,剔除相关性高的特征参数,利用大数据计算框架Spark建立机器学习工作流,将计算相关性的皮尔森系数与决策树分类算法结合了起来,从而优化模型,提高预测分类精度。预测模型改进前,即未进行相关性分析的森林火灾预测分类总精度为94.94%;预测模型改进后,即进行相关性分析,剔除了相关性较高的特征参数数据,森林火灾预测分类总精度为97.17%,准确率提高了近3%。使用Spark MLlib中的机器学习算法在森林火灾预测分类方面准确率总体较高,尤其在将多种数据挖掘算法结合后,模型性能得到提高,预测分类精度更高。 展开更多
关键词 森林火灾 Spark mllib 决策树 相关性分析 FWI系统
下载PDF
基于Spark+MLlib分布式学习算法的研究 被引量:8
2
作者 李彦广 《商洛学院学报》 2015年第2期16-19,共4页
电子商务服务的关键是用户的需求,随着电子商务业务的急速扩展,用户数据量的海量增长,针对传统的单机算法很难满足业务需求的现状,提出了基于Spark+MLlib的分布式学习算法,系统在实现过程中进行了分类和预测,并实现了用户标签系统。通... 电子商务服务的关键是用户的需求,随着电子商务业务的急速扩展,用户数据量的海量增长,针对传统的单机算法很难满足业务需求的现状,提出了基于Spark+MLlib的分布式学习算法,系统在实现过程中进行了分类和预测,并实现了用户标签系统。通过测试,新的算法明显优于单机算法。 展开更多
关键词 SPARK mllib 标签系统 构建
下载PDF
基于Spark MLlib协同过滤算法的美食推荐系统研究 被引量:4
3
作者 徐林 《吉林大学学报(信息科学版)》 CAS 2019年第2期181-185,共5页
针对交替最小二乘法中矩阵稀疏度较大时推荐结果的准确性下降问题,提出了一种改进的协同过滤算法。该算法根据用户对各种潮州美食的评分,结合其他用户的兴趣相似度,并利用潮州美食属性特征的相似度作为权重因子进行矩阵补全。实验结果表... 针对交替最小二乘法中矩阵稀疏度较大时推荐结果的准确性下降问题,提出了一种改进的协同过滤算法。该算法根据用户对各种潮州美食的评分,结合其他用户的兴趣相似度,并利用潮州美食属性特征的相似度作为权重因子进行矩阵补全。实验结果表明,改进算法的平均MAE(Mean Absolute Error)值为0.583,有效地提高了推荐精度。 展开更多
关键词 SPARK mllib算法库 美食推荐系统 协同过滤算法 交替最小二乘法 矩阵补全
下载PDF
Spark MLlib中决策树算法不同特征选择标准比较 被引量:5
4
作者 杜小芳 陈毅红 《太原师范学院学报(自然科学版)》 2020年第4期37-39,51,共4页
Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据... Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据集上的性能表现.实验结果表明,在保持训练效率的情况下,随着数据集规模增大,使用信息熵训练的树模型其分类精度高于使用基尼系数训练的模型精度. 展开更多
关键词 决策树 Spark mllib 信息熵 基尼系数
下载PDF
大数据环境下的分布式机器学习框架比较研究
5
作者 马威 李振亚 《计算机应用文摘》 2024年第12期108-110,共3页
在大数据环境下,处理庞大的数据集与实现复杂的机器学习算法愈发关键。为解决这一挑战,分布式机器学习框架应运而生。通过分布式计算资源的协同工作,可以提高机器学习模型的训练效率和性能。
关键词 大数据环境 机器学习 Apache Spark mllib TensorFlow PyTorch
下载PDF
基于融合NCG法的协同过滤系统的实现
6
作者 胡晶 《佳木斯大学学报(自然科学版)》 CAS 2024年第3期138-140,177,共4页
Spark是高速高效高准确率的基于内存的计算引擎,MLlib是内置机器学习算法库,该库在集群环境下实现并行计算,将数据以RDD形式表示,然后在分布式集群内调用机器学习算法,主要核心功能有特征提取、回归分类、聚类、统计分析和模型评估等,... Spark是高速高效高准确率的基于内存的计算引擎,MLlib是内置机器学习算法库,该库在集群环境下实现并行计算,将数据以RDD形式表示,然后在分布式集群内调用机器学习算法,主要核心功能有特征提取、回归分类、聚类、统计分析和模型评估等,本文将引用Spark MLlib进行电影数据分析的经典算法案例,融合非线性共轭梯度(NCG)法改进了ALS协同过滤推荐算法,减少了迭代次数、提高了推荐系统的效率,在对海量大数据进行实时分类、查询的场景中具有指导意义[1]。 展开更多
关键词 Spark mllib NCG算法 ALS协同过滤算法
下载PDF
Spark平台下电影推荐系统的设计 被引量:3
7
作者 李光明 房靖力 《计算机应用与软件》 北大核心 2020年第11期28-34,共7页
传统基于Hadoop或单机下基于Mahout构建的电影推荐系统面对数据量不断增大以及推荐算法模型需要大量迭代的情况时,会出现推荐效果差、运行速度明显下降、无法实时为用户进行个性化推荐的情况。针对以上问题,以电影评分数据集为背景,使用... 传统基于Hadoop或单机下基于Mahout构建的电影推荐系统面对数据量不断增大以及推荐算法模型需要大量迭代的情况时,会出现推荐效果差、运行速度明显下降、无法实时为用户进行个性化推荐的情况。针对以上问题,以电影评分数据集为背景,使用Hadoop、Spark、Kafka、Hive等大数据处理技术进行系统架构搭建,并采用改进后的余弦相似性的协同过滤和基于用户喜爱物品的物品协同过滤算法对MLlib协同过滤算法模型进行改进,对离线数据以及实时数据进行计算,产生TOP-N推荐结果,实现Spark平台下电影推荐系统。实验结果表明,在Spark平台下,该系统相较传统方法不仅数据处理速度和推荐准确性显著提升,而且稳定性更强。 展开更多
关键词 SPARK HADOOP mllib 协同过滤 电影推荐系统
下载PDF
基于MongoDB的文本分类研究 被引量:2
8
作者 陈德森 杨祖元 《无线互联科技》 2017年第5期96-98,共3页
文章基于流行的非关系型数据库MongoDB,结合Spark机器学习库中的朴素贝叶斯分类器和支持向量机,对豆瓣影评及京东商评进行情感分类,并采用准确率、召回率、F-Measure等指标对分类效果进行评价,最后测试了Spark-MongoDB平台的扩展性能。
关键词 文本分类 SPARK MONGODB mllib
下载PDF
Deep Learning-Based Hybrid Intelligent Intrusion Detection System 被引量:4
9
作者 Muhammad Ashfaq Khan Yangwoo Kim 《Computers, Materials & Continua》 SCIE EI 2021年第7期671-687,共17页
Machine learning(ML)algorithms are often used to design effective intrusion detection(ID)systems for appropriate mitigation and effective detection of malicious cyber threats at the host and network levels.However,cyb... Machine learning(ML)algorithms are often used to design effective intrusion detection(ID)systems for appropriate mitigation and effective detection of malicious cyber threats at the host and network levels.However,cybersecurity attacks are still increasing.An ID system can play a vital role in detecting such threats.Existing ID systems are unable to detect malicious threats,primarily because they adopt approaches that are based on traditional ML techniques,which are less concerned with the accurate classication and feature selection.Thus,developing an accurate and intelligent ID system is a priority.The main objective of this study was to develop a hybrid intelligent intrusion detection system(HIIDS)to learn crucial features representation efciently and automatically from massive unlabeled raw network trafc data.Many ID datasets are publicly available to the cybersecurity research community.As such,we used a spark MLlib(machine learning library)-based robust classier,such as logistic regression(LR),extreme gradient boosting(XGB)was used for anomaly detection,and a state-of-the-art DL,such as a long short-term memory autoencoder(LSTMAE)for misuse attack was used to develop an efcient and HIIDS to detect and classify unpredictable attacks.Our approach utilized LSTM to detect temporal features and an AE to more efciently detect global features.Therefore,to evaluate the efcacy of our proposed approach,experiments were conducted on a publicly existing dataset,the contemporary real-life ISCX-UNB dataset.The simulation results demonstrate that our proposed spark MLlib and LSTMAE-based HIIDS signicantly outperformed existing ID approaches,achieving a high accuracy rate of up to 97.52%for the ISCX-UNB dataset respectively 10-fold crossvalidation test.It is quite promising to use our proposed HIIDS in real-world circumstances on a large-scale. 展开更多
关键词 Machine learning intrusion detection system deep learning spark mllib LSTM big data
下载PDF
Research and Application on Spark Clustering Algorithm in Campus Big Data Analysis 被引量:1
10
作者 Qing Hou Guangjian Wang +2 位作者 Xiaozheng Wang Jiaxi Xu Yang Xin 《Journal of Computer Science Research》 2020年第1期16-20,共5页
Big data analysis has penetrated into all fields of society and has brought about profound changes.However,there is relatively little research on big data supporting student management regarding college and university... Big data analysis has penetrated into all fields of society and has brought about profound changes.However,there is relatively little research on big data supporting student management regarding college and university’s big data.Taking the student card information as the research sample,using spark big data mining technology and K-Means clustering algorithm,taking scholarship evaluation as an example,the big data is analyzed.Data includes analysis of students’daily behavior from multiple dimensions,and it can prevent the unreasonable scholarship evaluation caused by unfair factors such as plagiarism,votes of teachers and students,etc.At the same time,students’absenteeism,physical health and psychological status in advance can be predicted,which makes student management work more active,accurate and effective. 展开更多
关键词 SPARK Clustering algorithm Big data Data analysis mllib
下载PDF
基于Spark的大规模社交网络社区发现原型系统 被引量:8
11
作者 叶小榕 邵晴 《科技导报》 CAS CSCD 北大核心 2018年第23期93-101,共9页
为有效发掘大规模社交网络上的用户信息,提高对用户之间关系的深入了解,设计开发了基于Spark的大规模社交网络社区发现原型系统。系统利用ActiveMQ实现对大量用户数据的抓取,使用基于Spark的MLlib提供的朴素贝叶斯算法对用户数据进行清... 为有效发掘大规模社交网络上的用户信息,提高对用户之间关系的深入了解,设计开发了基于Spark的大规模社交网络社区发现原型系统。系统利用ActiveMQ实现对大量用户数据的抓取,使用基于Spark的MLlib提供的朴素贝叶斯算法对用户数据进行清洗,利用Spark的GraphX提供的PageRank算法和MLlib提供的Z-Score算法计算用户排名,最终应用并优化LPA算法,将特征相近、联系较密切的用户快速地划分到同一社区中,为进一步分析利用社区用户数据打下了基础。 展开更多
关键词 SPARK GraphX mllib 社区发现
原文传递
基于Spark的用户行为分析系统框架研究 被引量:4
12
作者 殷乐 姚远 刘辰 《网络安全技术与应用》 2018年第2期56-57,共2页
网络日志包含了大量有价值的信息,对分析用户上网行为模式提供有力数据保障。而随着互联网及应用程序规模的不断扩大,各种日志信息同时也呈数量级的增长,一般使用单台机器处理的用户行为分析系统早已无法满足当前需求。Spark作为一个专... 网络日志包含了大量有价值的信息,对分析用户上网行为模式提供有力数据保障。而随着互联网及应用程序规模的不断扩大,各种日志信息同时也呈数量级的增长,一般使用单台机器处理的用户行为分析系统早已无法满足当前需求。Spark作为一个专为大规模数据处理而设计的快速通用的分布式计算引擎,具有易用性、通用性和更快的速度等优势。本文介绍了现有常用的数据挖掘技术及Spark机器学习库MLlib中的相关算法,设计了一个基于Spark平台并使用多种MLlib挖掘算法的用户行为分析系统融合框架,包括日志采集、日志预处理、用户聚类、关联规则、序列模式、可视化、任务管理等模块。 展开更多
关键词 SPARK mllib 数据挖掘 用户行为分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部