期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于Scikit-Learn的垃圾短信过滤方法实证研究 被引量:6
1
作者 杨忆 李建国 葛方振 《淮北师范大学学报(自然科学版)》 CAS 2016年第4期39-41,共3页
文章为有效应对垃圾短信,在短信数据集"SMS Spam Collection"上,以Scikit-Learn为工具,通过实验对比验证,结果表明,在比较的7种垃圾短信过滤统计学习方法中,朴素贝叶斯和支持向量机方法在判别准确率方面明显优于其他方法,这2... 文章为有效应对垃圾短信,在短信数据集"SMS Spam Collection"上,以Scikit-Learn为工具,通过实验对比验证,结果表明,在比较的7种垃圾短信过滤统计学习方法中,朴素贝叶斯和支持向量机方法在判别准确率方面明显优于其他方法,这2种方法可以作为其他方法用以比较的基准测试方法. 展开更多
关键词 垃圾短信 scikit-learn 分类 朴素贝叶斯法 支持向量机
下载PDF
基于Serverless架构的人工智能实验平台的设计与实现
2
作者 李泽慧 张新有 《计算机与数字工程》 2024年第2期590-597,共8页
针对实验环境搭建复杂、实验数据量大以及算法实现难度高等人工智能实验教学中的现实问题,设计并实现了基于Serverless架构的人工智能实验平台。通过整合容器构建、工作负载管理以及事件触发这三者来完成Serverless架构的设计与搭建;平... 针对实验环境搭建复杂、实验数据量大以及算法实现难度高等人工智能实验教学中的现实问题,设计并实现了基于Serverless架构的人工智能实验平台。通过整合容器构建、工作负载管理以及事件触发这三者来完成Serverless架构的设计与搭建;平台使用Docker image作为实验容器镜像,镜像中集成scikit-learn算法库与大量公用数据集完成海量人工智能基础算法的迁移;实验教学管理员以提交实验代码包的形式新增实验,学生可以使用实验容器中大量公用算法完成实验,提高了平台的可扩展性和易用性;同时,平台基于Serverless架构实现实验容器的动态扩缩容,增加了平台的多用户并发能力。 展开更多
关键词 人工智能 Serverless DOCKER Kubernetes scikit-learn
下载PDF
机器学习预测甘肃省2025年—2030年污染物产量增长及匹配处理设施的应用研究
3
作者 黄慧 高磊 汤超 《节能与环保》 2024年第8期19-27,共9页
城市生活污水和垃圾的合理有效处理对实现城市的可持续发展起着至关重要的作用,而城市人口则直接影响着城市的可持续发展。本文利用《甘肃省发展年鉴(2009—2020)》数据,建立了基于支持向量回归的多输入机器学习(ML)人口预测模型。研究... 城市生活污水和垃圾的合理有效处理对实现城市的可持续发展起着至关重要的作用,而城市人口则直接影响着城市的可持续发展。本文利用《甘肃省发展年鉴(2009—2020)》数据,建立了基于支持向量回归的多输入机器学习(ML)人口预测模型。研究结果表明,在采用15个不同输入变量下,ML模型的决策系数在0.90~0.99之间。其中有4座城市产生的污水将在2030年超过现有处理能力,6座城市的垃圾填埋场将在2030年超过最大设计容量。这项研究为未来环境基础设施建设的战略决策提供了启示,有助于政府部门提前做出调控,以减轻环境压力。 展开更多
关键词 污染治理 设施匹配 机器学习 scikit-learn 相关性系数
下载PDF
Parallel Inference for Real-Time Machine Learning Applications
4
作者 Sultan Al Bayyat Ammar Alomran +3 位作者 Mohsen Alshatti Ahmed Almousa Rayyan Almousa Yasir Alguwaifli 《Journal of Computer and Communications》 2024年第1期139-146,共8页
Hyperparameter tuning is a key step in developing high-performing machine learning models, but searching large hyperparameter spaces requires extensive computation using standard sequential methods. This work analyzes... Hyperparameter tuning is a key step in developing high-performing machine learning models, but searching large hyperparameter spaces requires extensive computation using standard sequential methods. This work analyzes the performance gains from parallel versus sequential hyperparameter optimization. Using scikit-learn’s Randomized SearchCV, this project tuned a Random Forest classifier for fake news detection via randomized grid search. Setting n_jobs to -1 enabled full parallelization across CPU cores. Results show the parallel implementation achieved over 5× faster CPU times and 3× faster total run times compared to sequential tuning. However, test accuracy slightly dropped from 99.26% sequentially to 99.15% with parallelism, indicating a trade-off between evaluation efficiency and model performance. Still, the significant computational gains allow more extensive hyperparameter exploration within reasonable timeframes, outweighing the small accuracy decrease. Further analysis could better quantify this trade-off across different models, tuning techniques, tasks, and hardware. 展开更多
关键词 Machine Learning Models Computational Efficiency Parallel Computing Systems Random Forest Inference Hyperparameter Tuning Python Frameworks (TensorFlow PyTorch scikit-learn) High-Performance Computing
下载PDF
基于Scikit-learn的支持向量回归分析 被引量:6
5
作者 潘兴广 牛志忠 张明贵 《现代信息科技》 2019年第6期9-11,共3页
本文使用python的机器学习库——Scikit-learn实现支持向量回归(SVR)。在人工数据集上,RBF核的SVR比线性核和多项式核的SVR表现出了较好的数据拟合能力。本文在经典的UCI数据集上分别使用线性核、多项式核和RBF核的SVR进行回归分析,并... 本文使用python的机器学习库——Scikit-learn实现支持向量回归(SVR)。在人工数据集上,RBF核的SVR比线性核和多项式核的SVR表现出了较好的数据拟合能力。本文在经典的UCI数据集上分别使用线性核、多项式核和RBF核的SVR进行回归分析,并对三种模型进行了分析比较。 展开更多
关键词 scikit-learn 支持向量 回归分析
下载PDF
基于Scikit-Learn的智能家居气体监控及应对装置
6
作者 李尚霖 刘航鸣 +2 位作者 李胤声 王佳豪 刘熠晨 《电子测试》 2019年第16期11-12,共2页
文中设计了一款使用Scikit-Learn的线性回归算法对收集到的数据集进行分类及预测,从而实现对气体浓度的预测与报警并对有毒气体进行处理。外形部分圆饼形。而圆形的设计可以有利于气体与外界交换还可以通过控制转速来改变气体交换的速率。
关键词 scikit-learn 二次污染 气体泄露
下载PDF
基于朴素贝叶斯的新闻分类问题算法改进问题的研究 被引量:3
7
作者 胡晶 《电脑与信息技术》 2023年第2期5-8,共4页
贝叶斯算法用概率表示结果的不确定性,将分类问题转换为概率问题。贝叶斯算法结果表示为概率的比较问题,即对目标不同预测的信任程度。文章介绍贝叶斯算法原理和研究意义,分析该算法在解决同类问题上的优势和不足,朴素贝叶斯分类是基于... 贝叶斯算法用概率表示结果的不确定性,将分类问题转换为概率问题。贝叶斯算法结果表示为概率的比较问题,即对目标不同预测的信任程度。文章介绍贝叶斯算法原理和研究意义,分析该算法在解决同类问题上的优势和不足,朴素贝叶斯分类是基于一个预定的假设在给目标分类时优先考虑各关键字的条件独立,重点分析朴素贝叶斯分类相关理论,然后研究系数加权对朴素贝叶斯分类问题准确率的提高,通过系数加权TF-IDF对优化朴素贝叶斯分类算法,最后用Scikit-learn对新闻分类问题进行实验测试,通过实验证明改进后的该算法能够提高这类分类问题的准确率。 展开更多
关键词 scikit-learn TF-IDF 朴素贝叶斯 系数加权
下载PDF
Python语言在大数据分析中的应用设计
8
作者 江琴 《信息记录材料》 2023年第11期88-90,共3页
现代信息技术的发展促进了大数据智能分析的进步,为实现对海量大数据的快捷、高效处理,应用Python语言对大数据分析展开设计。Python语言具有丰富的标准库与第三方库,简单易学,应用Python语言能够在实现快速开发的基础上,完善系统管理任... 现代信息技术的发展促进了大数据智能分析的进步,为实现对海量大数据的快捷、高效处理,应用Python语言对大数据分析展开设计。Python语言具有丰富的标准库与第三方库,简单易学,应用Python语言能够在实现快速开发的基础上,完善系统管理任务,在可视化和大数据分析的支持下,对数据获取、存储等方面进行处理,显著提升数据分析的效果。本文在阐述Python语言及优势特点的基础上,分析Python语言和数据分析之间的关系,针对如何利用Python语言实现大数据分析展开重点探究。本文通过应用实践分析,证明大数据分析中应用Python语言可以显著提高分析效率,有助于大数据分析领域的可持续发展。 展开更多
关键词 PYTHON语言 大数据分析 Matplotlib可视化工具 scikit-learn
下载PDF
常用聚类内部评价指标的对比分析
9
作者 付春龍 盛腾 《电脑编程技巧与维护》 2023年第4期3-5,9,共4页
聚类算法是人工智能领域的重要组成部分,选择合适的聚类评价指标对于聚类结果的正确评估具有重要意义。选择常用的3个聚类内部评价指标在不同分布数据集下的不同算法聚类结果进行对比实验,基于极差比和变异系数对聚类评价指标的波动性... 聚类算法是人工智能领域的重要组成部分,选择合适的聚类评价指标对于聚类结果的正确评估具有重要意义。选择常用的3个聚类内部评价指标在不同分布数据集下的不同算法聚类结果进行对比实验,基于极差比和变异系数对聚类评价指标的波动性进行对比。实验结果表明,Silhouette Coefficien(SC)指数值波动最小;Davies-Bouldin(DB)指数值波动最大。评价指标在各数据集中的聚类性能排名方面,SC指数和Calinski-Harabasz(CH)指数具有一致性。这3个指标在团状数据集上聚类效果最好;在同心圆数据集上聚类效果最差。通过对聚类评价指标在数据集上相关性的分析发现,每个聚类评价指标对不同数据集具有特定的倾向性。 展开更多
关键词 聚类 性能评价指标 相关性分析 scikit-learn学习工具
下载PDF
基于随机森林算法对超星平台数据的挖掘与研究
10
作者 黄海林 王金恒 +1 位作者 曾志豪 王煜林 《电脑编程技巧与维护》 2023年第6期85-88,共4页
以某学院校级一流课程数据库原理与应用课程为研究对象,基于教育数据挖掘的随机森林算法对超星学习通平台的校级一流课程“数据库原理与应用”线上课程学习数据进行研究。研究结果表明,随机森林预测模型预测准确率高达81%,在探究学生在... 以某学院校级一流课程数据库原理与应用课程为研究对象,基于教育数据挖掘的随机森林算法对超星学习通平台的校级一流课程“数据库原理与应用”线上课程学习数据进行研究。研究结果表明,随机森林预测模型预测准确率高达81%,在探究学生在线上学习行为与学生成绩研究预测中,选取两个特征标签,即章节授课进度和学生学习总时间,可知学生学习总时间对于学生成绩的影响很大。 展开更多
关键词 教育数据挖掘 随机森林算法 自定义的colormap方案 scikit-learn 学习行为研究
下载PDF
混淆矩阵分类性能评价及Python实现 被引量:22
11
作者 于营 杨婷婷 杨博雄 《现代计算机》 2021年第20期70-73,79,共5页
本文介绍了混淆矩阵的概念,以及如何使用Scikit-learn学习混淆矩阵并进行分类,进而讨论了如何计算准确性、精确度和召回率,以及它们在深度学习模型评估方面的应用。
关键词 混淆矩阵 scikit-learn 准确性 精确度 召回率
下载PDF
基于机器学习的垃圾短信识别应用 被引量:2
12
作者 石凤贵 《电脑知识与技术》 2020年第3期202-204,共3页
随着科技的快速发展,手持终端已成为我们日常生活和工作中不可或缺的一部分。信息技术正在不断改变我们的工作和生活,但信息安全问题也给我们的信息和财产安全带来了威胁,垃圾短信层出不穷。对于垃圾短信,应该构建一种智能化的拦截和过... 随着科技的快速发展,手持终端已成为我们日常生活和工作中不可或缺的一部分。信息技术正在不断改变我们的工作和生活,但信息安全问题也给我们的信息和财产安全带来了威胁,垃圾短信层出不穷。对于垃圾短信,应该构建一种智能化的拦截和过滤机制进行自动识别处理。本文介绍了机器学习算法和中文信息处理技术并构建了短信识别应用。 展开更多
关键词 机器学习 朴素贝叶斯 scikit-learn 垃圾短信
下载PDF
基于Python的数据可视化方法和系统实现 被引量:11
13
作者 黄琪 《信息与电脑》 2019年第14期137-140,共4页
数据可视化分析能够让人们从纷繁复杂的数据中获取有价值的信息,同时,利用机器学习方法能让人们利用已有数据,科学、合理预测未知数据。基于Python的数据可视化方法和机器学习进行设计,运用数据清洗和可视化等技术,对预处理后的数据进... 数据可视化分析能够让人们从纷繁复杂的数据中获取有价值的信息,同时,利用机器学习方法能让人们利用已有数据,科学、合理预测未知数据。基于Python的数据可视化方法和机器学习进行设计,运用数据清洗和可视化等技术,对预处理后的数据进行数据集划分、特征工程、预估器流程和模型评估,利用Scikit-learn机器学习库和LightGBM库分析房价,得到房价规律。 展开更多
关键词 PYTHON 机器学习 Anaconda scikit-learn
下载PDF
Python语言特点及其在机器学习中的应用 被引量:10
14
作者 徐玉芳 苏斌 《计算机产品与流通》 2019年第12期142-142,共1页
本文概述了Python语言的特点及其在机器学习中的应用情况,给出了Python中常用的机器学习框架和基本使用流程,展示了Python机器学习的简洁与高效,有助于推动新一代人工智能在国内的普及与发展。
关键词 PYTHON 机器学习 scikit-learn TensorFlow
下载PDF
基于特征选择的微博水军识别研究 被引量:1
15
作者 武晓丹 《电子测试》 2022年第24期47-49,69,共4页
随着互联网飞速发展,微博等社交媒体也迅速成长起来,与此同时,微博平台上网络水军也越来越多。为了能够识别水军,还网络世界一个清净之地,本文针对Twitter平台,利用3个不同数据集以及Scikit-Learn库中3种分类算法进行实验,实验采用相关... 随着互联网飞速发展,微博等社交媒体也迅速成长起来,与此同时,微博平台上网络水军也越来越多。为了能够识别水军,还网络世界一个清净之地,本文针对Twitter平台,利用3个不同数据集以及Scikit-Learn库中3种分类算法进行实验,实验采用相关性检验方法比较不同特征集差异,得出提高分类效果准确率的有效特征,并通过不同机器学习算法训练数据集,得出最优算法。本实验在Twitter真实数据集下进行,实验结果表明“,推特用户收藏、回复、转发总数actions”特征的引入在很大程度上提高了分类效果准确率;并且相较于支持向量机与K最近邻算法,随机森林分类法能够更有效识别水军。 展开更多
关键词 TWITTER 特征选择 scikit-learn 特征提取
下载PDF
H Boost.R算法及航空铝合金裂纹扩展预测
16
作者 王志航 常锦才 祝青钰 《华北理工大学学报(自然科学版)》 CAS 2021年第1期52-63,共12页
使用含有两孔及三孔的铝合金平板进行疲劳裂纹扩展试验并得到试验数据。将HBoost算法应用于回归问题,定义了回归形式的熵度量,得到了适用于回归问题的HBoost.R算法,建立了HBoost.R预测裂纹长度模型。此模型的均方根误差小于标准差,且采... 使用含有两孔及三孔的铝合金平板进行疲劳裂纹扩展试验并得到试验数据。将HBoost算法应用于回归问题,定义了回归形式的熵度量,得到了适用于回归问题的HBoost.R算法,建立了HBoost.R预测裂纹长度模型。此模型的均方根误差小于标准差,且采用五折交叉验证得分较高、结果平稳。结果表明,模型的预测效果较好,且在载荷形式相同的情况下,可以以两孔孔间裂纹规律预测三孔孔间裂纹规律。 展开更多
关键词 H Boost.R算法 裂纹扩展预测 数据分析 scikit-learn机器学习
下载PDF
基于Python的高职院校学习平台数据挖掘研究 被引量:3
17
作者 宋永生 《电脑知识与技术》 2018年第11X期15-17,共3页
高职院校学习平台积累了大量的数据,而这些数据没有得到充分有效的利用。Python简洁易用,深受人们喜爱,积累了大量可用于数据挖掘的程序库。利用开源机器学习库Scikit-Learn及开源深度学习库Keras分别对学习平台中的结构化数据和非结构... 高职院校学习平台积累了大量的数据,而这些数据没有得到充分有效的利用。Python简洁易用,深受人们喜爱,积累了大量可用于数据挖掘的程序库。利用开源机器学习库Scikit-Learn及开源深度学习库Keras分别对学习平台中的结构化数据和非结构化数据进行挖掘分析,挖掘结果可用于教师改进教学及学生改进学习。 展开更多
关键词 学习平台 PYTHON 数据挖掘 scikit-learn Keras
下载PDF
基于决策树的用户信用评分模型的构建 被引量:2
18
作者 吴锦华 王志生 +1 位作者 刘重阳 胡龙彪 《无线互联科技》 2019年第8期45-46,共2页
信用评分系统在信用风险管理中发挥比较重要的作用,通过大数据分析技术构建评估分析模型来解决信用风险预测问题。文章在scikit-learn机器学习工具的基础上,通过利用特征选择方法生成有效特征集并结合决策树方法来构建信用评分模型,并... 信用评分系统在信用风险管理中发挥比较重要的作用,通过大数据分析技术构建评估分析模型来解决信用风险预测问题。文章在scikit-learn机器学习工具的基础上,通过利用特征选择方法生成有效特征集并结合决策树方法来构建信用评分模型,并在实际数据集得出评分结果,同时所得结果为评估人员提供信用决策建议。 展开更多
关键词 信用评分 scikit-learn 特征选择 决策树
下载PDF
A Data Analysis Framework for Earth System Simulation within an <i>In-Situ</i>Infrastructure
19
作者 D. Wang X. Luo +1 位作者 F. Yuan N. Podhorszki 《Journal of Computer and Communications》 2017年第14期76-85,共10页
This paper presents a generic procedure to implement a scalable and high performance data analysis framework for large-scale scientific simulation within an in-situ infrastructure. It demonstrates a unique capability ... This paper presents a generic procedure to implement a scalable and high performance data analysis framework for large-scale scientific simulation within an in-situ infrastructure. It demonstrates a unique capability for global Earth system simulations using advanced computing technologies (i.e., automated code analysis and instrumentation), in-situ infrastructure (i.e., ADIOS) and big data analysis engines (i.e., SciKit-learn). This paper also includes a useful case that analyzes a globe Earth System simulations with the integration of scalable in-situ infrastructure and advanced data processing package. The in-situ data analysis framework can provides new insights on scientific discoveries in multiscale modeling paradigms. 展开更多
关键词 IN-SITU DATA ANALYSIS Source Code ANALYSIS DATA STAGING ADIOS Earth System Model Machine Learning scikit-learn E3SM
下载PDF
位置大数据在医药零售终端竞争中的应用研究
20
作者 沙梅 《大数据时代》 2018年第1期4-10,共7页
结合哈药集团业务管理与位置大数据应用实践,运用机器学习算法与大数据分析挖掘方法和理论,利用机器学习算法库scikitlearn和数学计算库pandas,以零售终端为主体,对零售终端周边地理环境位置大数据进行相关性探索,探索周边商业业态空间... 结合哈药集团业务管理与位置大数据应用实践,运用机器学习算法与大数据分析挖掘方法和理论,利用机器学习算法库scikitlearn和数学计算库pandas,以零售终端为主体,对零售终端周边地理环境位置大数据进行相关性探索,探索周边商业业态空间布局与医药终端之间的关系。对佛山区域医药终端周边业态与业绩的关系进行层次聚类,把终端科学合理的分为两大类四小类,对零售终端与营销活动终端拜访之间的关联性进行分析。对终端周边业态空间布局与终端销量之间的关系进行深入研究,寻找影响终端竞争的关联因素。采用机器学习、大数据挖掘理论和方法,对关联因素进行数据建模与模型训练,得出了佛山区域终端销售与周边业态空间布局的量化方程式。并为终端销售业绩提供了模拟预测和评价方法。 展开更多
关键词 位置大数据 零售终端 机器学习 PANDAS scikit-learn 关联分析 层次聚类 线性回归
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部