期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于正则化KL距离的交叉验证折数K的选择 被引量:6
1
作者 褚荣燕 王钰 +1 位作者 杨杏丽 李济洪 《计算机技术与发展》 2021年第3期52-57,共6页
在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不... 在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不是这样。因此,可以通过度量训练集和测试集的分布一致性来进行K折交叉验证折数K的选择。直观地,KL(Kullback-Leibler)距离是一种合适的度量方法,因为它度量了两个分布之间的差异。然而直接基于KL距离进行K的选择时,从多个数据实验结果发现随着K的增加KL距离也在增大,显然这是不合适的。为此,提出了一种基于正则化KL距离的K折交叉验证折数K的选择准则,通过最小化此正则KL距离来选择合适的折数K。进一步多个真实数据实验验证了提出准则的有效性和合理性。 展开更多
关键词 K交叉验证 数K的选择 KL(Kullback-Leibler)距离 正则 机器学习
下载PDF
Logistic模型对非平衡数据的敏感性:测度、修正与比较 被引量:9
2
作者 魏瑾瑞 吕晓云 《统计研究》 CSSCI 北大核心 2016年第2期79-85,共7页
本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正... 本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:1数据非平衡程度越高,logistic回归对稀有类的识别能力越差。2相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。3AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。 展开更多
关键词 LOGISTIC模型 平衡数据 ROC曲线 AUC值 平衡化的五折交叉验证
下载PDF
一种基于聚类与离散化算法的分类方法
3
作者 杨怀珍 李玲华 《统计与决策》 CSSCI 北大核心 2010年第14期18-20,共3页
在采用聚类方法产生训练集的基础上,运用粗集理论离散化预处理该训练集,可以更好的提高分类精度。文章运用PAM算法聚类原始样本构成训练集,再利用布尔逻辑和粗集理论结合的离散化算法离散化该训练集,并以此离散化的训练集训练分类器。... 在采用聚类方法产生训练集的基础上,运用粗集理论离散化预处理该训练集,可以更好的提高分类精度。文章运用PAM算法聚类原始样本构成训练集,再利用布尔逻辑和粗集理论结合的离散化算法离散化该训练集,并以此离散化的训练集训练分类器。实验结果证明,基于该方法在相同的数据集上分类,比仅基于PAM算法预处理的RDDTE方法产生的分类精度最高提高了15.5%,且选用更少量的训练集。 展开更多
关键词 PAM 启发式算法 数据离散 k-交叉验证
下载PDF
基于网络搜索数据的北京市旅游区客流量预测研究——基于五折交叉验证法的不同预测模型比较 被引量:5
4
作者 石峻驿 周妮文 钱源 《经济统计学(季刊)》 2017年第2期73-85,共13页
本文以百度的整体搜索指数为网络搜索数据基础,采用直接取词法和范围取词法对北京市旅游的网络搜索关键词进行初选,并采用时差相关系数法和皮尔森相关系数法在初选的关键词中选择核心关键词。接着,选用逐步回归模型、分类回归树模型(cla... 本文以百度的整体搜索指数为网络搜索数据基础,采用直接取词法和范围取词法对北京市旅游的网络搜索关键词进行初选,并采用时差相关系数法和皮尔森相关系数法在初选的关键词中选择核心关键词。接着,选用逐步回归模型、分类回归树模型(classification and regression tree model)、随机森林模型(random forest model)、BP神经网络模型(back propagation neural network model)和支持向量机模型(support vector vachinemodel),采用五折交叉验证法,对北京市旅游区客流量进行预测分析。测试集的平均绝对百分误差(mean absolute percentage error,MAPE)和标准化均方误差(normalized mean square error, NMSE)值结果显示,五个预测模型中随机森林模型的预测效果最佳。与传统的预测方法相比,基于网络搜索数据的北京市旅游区客流量预测能够较好地解决拐点预测问题,同时预测的时效性更强,比官方统计调查数据的公布至少提前一个月。 展开更多
关键词 网络搜索数据 旅游区客流量 预测 交叉验证 随机森林模型
原文传递
基于甲基化位点的筛选建模诊断结直肠癌
5
作者 薛春萌 高洁 +3 位作者 李嘉乐 李荣佳 刘畅 梁建伟 《系统医学》 2022年第15期39-45,共7页
目的利用癌症基因组图谱(the cancer genome atlas,TCGA)中的结直肠癌27 K甲基化数据和临床随访数据,挖掘与结直肠癌不良预后相关的因素及建立结直肠癌诊断模型。方法自2020年12月-2021年9月,在TCGA网站下载207例结直肠癌27 K甲基化测... 目的利用癌症基因组图谱(the cancer genome atlas,TCGA)中的结直肠癌27 K甲基化数据和临床随访数据,挖掘与结直肠癌不良预后相关的因素及建立结直肠癌诊断模型。方法自2020年12月-2021年9月,在TCGA网站下载207例结直肠癌27 K甲基化测序数据和相关临床资料。用R语言edger软件包筛选出差异甲基化位点,然后使用SPSS软件对差异甲基化位点进行ROC分析、逐步回归分析,筛选出对结直肠癌诊断有意义的位点。应用支持向量机、神经网络等建立起基于数个DNA甲基化位点的数学模型,并在GEO数据库中获取独立数据集GSE131013来评估结直肠癌诊断模型的性能。同时利用Kaplan-Meier(KM)单因素分析法和Cox多因素分析法对临床数据指标和甲基化位点进行生存分析,筛选出与结直肠癌不良预后有关的因素。结果筛选出6个于结直肠癌有诊断潜力的位点:cg00240432、cg06744574、cg08090772、cg13577076、cg17872757和cg24446548。基于6个DNA甲基化位点建立ANN模型、Logistic回归模型、SVM模型,3种模型10折交叉验证平均准确率分别为99.0%、98.0%、99.5%,漏诊率分别为1.0%、2.0%、0.5%。运用GEO数据库中的独立数据集验证模型,3种模型的准确率分别为92.9%、85.8%、91.2%。KM生存分析发现cg24446548高甲基化以及结直肠癌晚期(Ⅲ、Ⅳ期)与结直肠癌不良预后有关(P<0.05)。Cox多因素分析发现肿瘤分期对生存期有明显影响(P<0.05)。结论筛选出的甲基化位点具有诊断结直肠癌的潜能。在基于甲基化位点的筛选建立的3种模型中,ANN和SVM模型分类和预测性能较好。结直肠癌患者的cg24446548位点高甲基化以及肿瘤晚期(Ⅲ、Ⅳ期)预示着不良预后。 展开更多
关键词 结直肠癌 机器学习 甲基 10交叉验证
下载PDF
混合线性模型在黄酮类化合物QSAR研究中的应用
6
作者 卢昂 袁仕梦 +2 位作者 张成桂 艾志琼 巫秀美 《大理大学学报》 2021年第10期6-13,共8页
目的:采用混合线性模型(MLM)构造定量结构-活性关系(QSAR)模型阐明黄酮类化合物与其抗氧化活性之间的构效关系,从而对该类先导化合物的设计提供依据。方法:从PubMed数据库中检索并收集黄酮类化合物对1,1-二苯基-2-三硝基苯肼(DPPH)的半... 目的:采用混合线性模型(MLM)构造定量结构-活性关系(QSAR)模型阐明黄酮类化合物与其抗氧化活性之间的构效关系,从而对该类先导化合物的设计提供依据。方法:从PubMed数据库中检索并收集黄酮类化合物对1,1-二苯基-2-三硝基苯肼(DPPH)的半抑制浓度(IC_(50))的文献,并根据其分子结构特征与IC_(50)值建立数据库。通过MLM构造初始QSAR模型,应用五折交叉验证法进行模型优化,最终得到预测模型。结果:黄酮类化合物的抗氧化活性与A环的邻二酚羟基数目(X_(1))和B环的酚羟基数目(X_(2))呈正相关,与B环的间二酚羟基数目(X_(3))呈负相关。优化后的模型为:IC_(50)=137.56-65.86X_(1)-53.92X_(2)+70.85X_(3)。结论:采用MLM进行QSAR研究能较好地预测黄酮类化合物的抗氧化活性,为抗氧化药物的设计提供参考。 展开更多
关键词 QSAR 黄酮类合物 抗氧活性 混合线性模型 交叉验证
下载PDF
基于深度神经网络的船舶系泊受灾预报研究
7
作者 张庆丰 陈明 +1 位作者 麻云平 李楷 《应用科技》 CAS 2024年第3期15-22,共8页
为避免船舶系泊于码头时遭受恶劣海况而发生的缆绳断裂等问题,通过深度神经网络建立了系泊受灾预测模型,来快速获得系泊船舶所有系泊缆绳的受力。模型输入特征数量为11个,涵盖风、浪、流、涌、船舶吃水及船舶系泊方式等基本参数,输出特... 为避免船舶系泊于码头时遭受恶劣海况而发生的缆绳断裂等问题,通过深度神经网络建立了系泊受灾预测模型,来快速获得系泊船舶所有系泊缆绳的受力。模型输入特征数量为11个,涵盖风、浪、流、涌、船舶吃水及船舶系泊方式等基本参数,输出特征为系泊系统中所有缆绳的受力。对模型的测试结果表明,相比于径向基神经网络,模型具有较高的预测精度,每组测试工况下的平均相对误差不超过10%。可将该模型用于在恶劣海况来临前对系泊系统的安全评估和风险分析,有助于相关人员及时采取应对措施,从而保证系泊系统的稳定性与可靠性。 展开更多
关键词 码头系泊 缆绳受力 非线性回归预测 深度神经网络 批正则 K交叉验证 径向基神经网络 安全评估
下载PDF
基于Stacking集成模型的煤层瓦斯含量预测研究 被引量:1
8
作者 王琳 周捷 +2 位作者 林海飞 李文静 张宇少 《煤炭工程》 北大核心 2024年第4期125-132,共8页
煤层瓦斯含量精准预测是预防井下瓦斯灾害事故的重要环节,为提高井下瓦斯含量预测的科学性及准确性,获取不同矿区的41组数据,包括瓦斯含量、埋深、煤厚、水分、灰分以及挥发分。对最小二乘支持向量机(LSSVM)、深度信念网络(DBN)、长短... 煤层瓦斯含量精准预测是预防井下瓦斯灾害事故的重要环节,为提高井下瓦斯含量预测的科学性及准确性,获取不同矿区的41组数据,包括瓦斯含量、埋深、煤厚、水分、灰分以及挥发分。对最小二乘支持向量机(LSSVM)、深度信念网络(DBN)、长短期记忆(LSTM)、Elman神经网络及自适应增强(Adaboost)五种算法进行初选,得到最优基模型为最小支持二乘向量机、自适应增强以及深度信念网络。通过基模型集成得到7种瓦斯含量预测模型,得到Stacking-LSSVM-Adaboost、Adaboost、Stacking-Adaboost-DBN和Stacking-LSSVM-Adaboost-DBN四种模型为优选模型。采用判定系数、平均绝对误差、均方根误差以及平均绝对百分比误差四种预测评价指标对优选出的四种模型进行综合评估,选择MAE<0.2、RMSE<0.3且MAPE<10的模型作为最终瓦斯含量预测模型。结果表明,Stacking-LSSVM-Adaboost-DBN集成模型判定系数为0.951,MAE、RMSE和MAPE分别为0.170、0.204及7.412,所建立模型拥有较高预测精度,可为矿井瓦斯灾害防治提供一定依据。 展开更多
关键词 瓦斯含量预测 Stacking集成 交叉验证 模型优选 模型评价
下载PDF
基于机器学习算法的服装直播销量预测模型
9
作者 韩铂 李沛 《丝绸》 CAS CSCD 北大核心 2024年第7期109-117,共9页
为了完善直播销量预测的指标体系,提高直播销量预测的准确率,本文对比多种机器学习算法,分析服装直播销量的影响因素并预测服装直播销量。首先,通过文献分析选取直播销量的影响因素,并使用Spearman相关系数结合显著性进行筛选。其次,通... 为了完善直播销量预测的指标体系,提高直播销量预测的准确率,本文对比多种机器学习算法,分析服装直播销量的影响因素并预测服装直播销量。首先,通过文献分析选取直播销量的影响因素,并使用Spearman相关系数结合显著性进行筛选。其次,通过不同机器学习算法建立服装销量预测模型。选用R 2、MAE、RMSE及MAPE为评价指标,采用5折交叉验证的方法,测试各模型性能。研究结果表明:主播粉丝数、主播近30天场均观看人次、主播近30天场均坑产、产品价格、产品讲解时长、产品近30天历史销量、品牌粉丝数、品牌近30天历史销量、折扣这9个因素之间共线性较弱且与直播销量之间的相关性显著,可作为预测模型中的影响因素;预测算法中K近邻算法和随机森林算法的表现较好,R 2均大于0.98,MAPE均在30.5%以内。预测结果可帮助零售商规划库存,调整生产计划,为产品采购、定价、推广提供数据支持。 展开更多
关键词 直播销量预测 机器学习 随机森林 K近邻 SVM支持向量机 交叉验证
下载PDF
基于随机森林算法的海水循环冷却系统钙离子浓度预测模型
10
作者 张益 汤益琛 《盐科学与化工》 CAS 2024年第7期19-22,26,共5页
海水循环冷却系统中钙离子的检测问题已成为阻碍系统精细化管理的重要限制因素。文章将随机森林算法与海水循环水中钙离子浓度预测结合,充分总结运行经验,采用易实现在线检测的电导率值、pH值和系统日期作为模型特征,结合随机森林算法,... 海水循环冷却系统中钙离子的检测问题已成为阻碍系统精细化管理的重要限制因素。文章将随机森林算法与海水循环水中钙离子浓度预测结合,充分总结运行经验,采用易实现在线检测的电导率值、pH值和系统日期作为模型特征,结合随机森林算法,实现海水循环水中钙离子浓度预测。利用随机森林算法和宁海电厂5#海水循环冷却系统2014年与2015年海水循环水水质监测数据,建立海水循环水中钙离子浓度预测模型。通过五数概括法进行数据清洗,将样本划分为训练集和测试集,采用五折交叉验证和网格搜索法优化模型参数。训练集和测试集上模型的验证和评价效果良好,该模型可用于预测海水循环水中钙离子浓度。 展开更多
关键词 海水循环冷却 机器学习 随机森林算法 交叉验证 回归
下载PDF
基于5CV-Optuna-LightGBM回归模型的数据预测方法
11
作者 顾靓 谈子楠 荣静 《软件工程》 2024年第1期49-54,共6页
为解决各类复杂的数据预测问题,文章提出以五折交叉验证(5CV)、Optuna超参数优化和LightGBM回归预测模型为基础的5CV-Optuna-LightGBM混合回归预测模型。采用影响二手车价格的因素数据集,首先进行数据预处理与Pearson相关性分析,确定37... 为解决各类复杂的数据预测问题,文章提出以五折交叉验证(5CV)、Optuna超参数优化和LightGBM回归预测模型为基础的5CV-Optuna-LightGBM混合回归预测模型。采用影响二手车价格的因素数据集,首先进行数据预处理与Pearson相关性分析,确定37个特征指标。其次通过L1正则化对模型进行降噪处理,并利用交叉验证和Optuna算法不断优化模型,最终得到在5CV-Optuna-LightGBM回归预测模型下的数据预测结果。从准确率、花费时间等多个评价指标出发,开展实验分析模型的预测效果,得到准确率为99.433%、花费时间为15s、平均绝对误差为0.306%的结果,与其他模型对比,其预测值更加准确、建模效率更高、拟合度更高。 展开更多
关键词 Pearson 交叉验证 Optuna LightGBM 正则
下载PDF
基于XGBoost算法融合多特征短期光伏发电量预测 被引量:26
12
作者 彭曙蓉 郑国栋 +2 位作者 黄士峻 李彬 胡泽斌 《电测与仪表》 北大核心 2020年第24期76-83,共8页
针对目前光伏发电过程中由于"弃光"现象导致能源利用率低和经济性差等问题,提出一种基于XGBoost算法融合多种特征的短期光伏发电量预测的方法。文中介绍了XGBoost算法的基本原理,引入正则化惩罚函数和误差函数来构建光伏预测... 针对目前光伏发电过程中由于"弃光"现象导致能源利用率低和经济性差等问题,提出一种基于XGBoost算法融合多种特征的短期光伏发电量预测的方法。文中介绍了XGBoost算法的基本原理,引入正则化惩罚函数和误差函数来构建光伏预测模型的目标函数;分析了光伏发电量和各特征之间的皮尔森相关系数,同时对特征的异常数据进行预处理。在训练过程中为了避免对模型超参数的影响,采用K折交叉验证(K Fold Cross Validation)对数据的训练集、验证集和测试集进行划分。训练完模型参数后把测试集数据放到光伏预测模型中,预测得到未来三天的光伏发电量。对比实验选择SVM和LSTM两种预测方法进行,实验结果表明XGBoost算法在预测光伏发电中具有较高的准确性和实用性。 展开更多
关键词 XGBoost算法 正则惩罚函数 特征相关性分析 K交叉验证 光伏发电出力预测
下载PDF
基于主成分分析的支持向量机对购房意愿的分类研究 被引量:1
13
作者 邹玉梅 范敬雅 张鹏程 《技术与创新管理》 2016年第5期544-546,共3页
居民的购房意愿在整个宏观层面上影响着整个社会结构的变迁和转型。文中基于500份居民购房意愿调查问卷,利用主成分分析法提取了主要特征,对主成分序列建立了支持向量机分类模型。五折交叉验证结果表明:分类效果良好,对政府和房地产开... 居民的购房意愿在整个宏观层面上影响着整个社会结构的变迁和转型。文中基于500份居民购房意愿调查问卷,利用主成分分析法提取了主要特征,对主成分序列建立了支持向量机分类模型。五折交叉验证结果表明:分类效果良好,对政府和房地产开发商进行客户细分、制定营销策略有一定的借鉴意义。 展开更多
关键词 购房意愿 主成分分析法 核函数 交叉验证 支持向量机分类
下载PDF
基于支持向量机的大学生考研预测 被引量:4
14
作者 张凤霞 范丽亚 张凡龙 《聊城大学学报(自然科学版)》 2010年第2期4-7,共4页
目前国内对大学生考研的定性研究居多,很少运用定量的方法建立分析预测模型.本文在参考其它预测体系的基础上,提出了大学生考研预测指标体系.并用三种支持向量机技术对该问题进行了预测,通过具体实例分析获得了较高的预测准确率,得到了... 目前国内对大学生考研的定性研究居多,很少运用定量的方法建立分析预测模型.本文在参考其它预测体系的基础上,提出了大学生考研预测指标体系.并用三种支持向量机技术对该问题进行了预测,通过具体实例分析获得了较高的预测准确率,得到了不同核下针对该问题的最优预测模型. 展开更多
关键词 支持向量机 邻近支持向量机 分类 预测 交叉验证
下载PDF
基于随机森林法的煤矿微震危害预测 被引量:3
15
作者 李盛 郭民之 康文倩 《云南民族大学学报(自然科学版)》 CAS 2015年第4期315-319,共5页
微震过程的复杂性和不均衡性导致线性模型不足以预测微震灾害,提出随机森林方法(random forest)在高能量(E≥104J)下关于煤矿开采微震灾害的预测问题.数据来自位于波兰的采用长壁开采法的煤矿,采用随机森林方法对数据集进行标准均方误差... 微震过程的复杂性和不均衡性导致线性模型不足以预测微震灾害,提出随机森林方法(random forest)在高能量(E≥104J)下关于煤矿开采微震灾害的预测问题.数据来自位于波兰的采用长壁开采法的煤矿,采用随机森林方法对数据集进行标准均方误差(NMSE)分析,并与决策树、Bagging算法、支持向量机、最近邻法比较,发现随机森林方法对多样本、高维度的煤矿矿山微震预测问题效果理想. 展开更多
关键词 微震灾害预测 随机森林法 线性分析 交叉验证 R软件
下载PDF
基于模糊时序的SVR模型对空气质量的预测 被引量:3
16
作者 郝晓露 张姗姗 朱家明 《兰州文理学院学报(自然科学版)》 2019年第4期17-23,39,共8页
针对未来PM2.5质量浓度的预测,首先,为了使结果更加准确并且贴近实际,构建时间序列模糊信息粒模型,对4个不同的季度的历史指标进行模糊粒化处理;接着,建立支持向量机的回归预测模型,分别对模糊粒子参数LOW、R、UP进行回归预测,并采取K... 针对未来PM2.5质量浓度的预测,首先,为了使结果更加准确并且贴近实际,构建时间序列模糊信息粒模型,对4个不同的季度的历史指标进行模糊粒化处理;接着,建立支持向量机的回归预测模型,分别对模糊粒子参数LOW、R、UP进行回归预测,并采取K折交叉验证法进行参数优化,得到2019年的PM2.5质量浓度预测数据;最后,设计循环算法进一步预测出2020-2022年的指标预测数据.其中,2020年PM2.5质量浓度均值浮动范围在23~101之间,在2012年基础上降低了2%~77%左右,基本达到空气质量改善目标要求. 展开更多
关键词 空气质量 模糊粒子 回归型支持向量机 K交叉验证
下载PDF
一种基于Xgboost的Skype时间式隐信道检测方法 被引量:4
17
作者 常婷婷 翟江涛 戴跃伟 《计算机工程》 CAS CSCD 北大核心 2021年第7期88-94,共7页
时间式隐信道利用数据包的包间时延来传递秘密信息,受网络时间特性复杂性的影响,网络隐信道的检测率低且虚警率较高。提出一种利用Xgboost模型的Skype时间式隐信道检测方法。在传统提取Skype时间序列的Markov转移特性、信息熵、包间时... 时间式隐信道利用数据包的包间时延来传递秘密信息,受网络时间特性复杂性的影响,网络隐信道的检测率低且虚警率较高。提出一种利用Xgboost模型的Skype时间式隐信道检测方法。在传统提取Skype时间序列的Markov转移特性、信息熵、包间时延的均值与方差、DCT系数、ε-相似度等特征的基础上,增加峰态、偏态和标准偏差的差值3种特征,以准确了解包间时延分布并进行筛选排查,同时采用五折交叉验证法结合无重复抽样技术,使每次迭代时每个样本点只有一次被划入训练集或测试集,最终通过Xgboost算法进行判决和检测。实验结果表明,与BP神经网络方法相比,该方法检测率更高且虚警率更低。 展开更多
关键词 网络隐信道 时间式隐信道 交叉验证 神经网络 Xgboost算法
下载PDF
基于序列深度学习的Ⅲ型分泌效应子预测
18
作者 唐贤俊 王顺芳 《计算机工程与设计》 北大核心 2022年第8期2197-2203,共7页
为理解Ⅲ型分泌系统(T3SS)对致病机理的重要性,针对其表现出的高度序列多样性,提出基于序列深度学习的Ⅲ型分泌效应子预测方法。利用两级卷积神经网络实现对蛋白质序列功能域的检测,用双向长短时记忆神经网络识别长期依赖关系,用二进制... 为理解Ⅲ型分泌系统(T3SS)对致病机理的重要性,针对其表现出的高度序列多样性,提出基于序列深度学习的Ⅲ型分泌效应子预测方法。利用两级卷积神经网络实现对蛋白质序列功能域的检测,用双向长短时记忆神经网络识别长期依赖关系,用二进制交叉熵评价神经网络质量。在数据集上将五折交叉验证的结果与其它算法进行比较,验证了该方法能够有效提高预测Ⅲ型分泌效应子的准确率。 展开更多
关键词 分泌效应子预测 序列特征 两级卷积神经网络 二进制交叉 交叉验证
下载PDF
基于加权朴素贝叶斯的水质数据分类研究 被引量:2
19
作者 方志豪 李正权 张铭玮 《物联网学报》 2022年第1期113-122,共10页
为更好地实施水环境管理政策,水质评价是基础环节,即根据某一水域多个水质参数,如何将其合理地划分到特定水质类别。针对该问题,提出了一种改进的朴素贝叶斯分类方法,该方法赋予不同属性以不同的权值,削弱了朴素贝叶斯条件独立性的假设... 为更好地实施水环境管理政策,水质评价是基础环节,即根据某一水域多个水质参数,如何将其合理地划分到特定水质类别。针对该问题,提出了一种改进的朴素贝叶斯分类方法,该方法赋予不同属性以不同的权值,削弱了朴素贝叶斯条件独立性的假设,使分类结果更接近实际类别。首先,参考国家地表水水质自动监测站(以下简称国控水站)发布的数据,选取其中500条水质数据作为样本,基于溶解氧、高锰酸盐指数、氨氮和总磷4个指标建立评价体系;然后,利用改进朴素贝叶斯分类方法对样本进行学习与评价,并采用五折交叉验证法验证其分类性能。结果表明,改进朴素贝叶斯分类方法的准确率、精确率、召回率和F1值分别达到96.0%、95.9%、93.8%和94.8%,水质数据分类的性能指标相较于其他朴素贝叶斯分类方法更高,可对实际工程中遇到水质数据分类的问题提供一定的参考。 展开更多
关键词 水质评价 朴素贝叶斯 交叉验证 性能指标
下载PDF
机器学习在购买意图方面的应用
20
作者 刘占玉 高荣芳 《智能计算机与应用》 2020年第6期66-67,73,共3页
顾客是否成功购买商品,不仅与商品本身有关,而且与顾客所处区域、类型和特殊节日有关。互联网时代,各大购物网站都有海量的顾客购买信息,因此可以通过顾客对网站的使用和操作信息,使用机器学习算法来预测顾客购买此类商品的意向。本文... 顾客是否成功购买商品,不仅与商品本身有关,而且与顾客所处区域、类型和特殊节日有关。互联网时代,各大购物网站都有海量的顾客购买信息,因此可以通过顾客对网站的使用和操作信息,使用机器学习算法来预测顾客购买此类商品的意向。本文使用随机森林算法、SVM算法和朴素贝叶斯算法建立模型,并采用五折交叉验证的方法选出这3个可靠的模型,预测顾客在线购买的可能性,最终通过准确率、召回率、F1值、AUC对模型进行评估。实验结果表明:随机森林更适合于在线购买意图的预测。 展开更多
关键词 在线购买意图 随机森林 SVM 朴素贝叶斯 交叉验证
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部