期刊文献+
共找到1,133篇文章
< 1 2 57 >
每页显示 20 50 100
Basic Tenets of Classification Algorithms K-Nearest-Neighbor, Support Vector Machine, Random Forest and Neural Network: A Review 被引量:5
1
作者 Ernest Yeboah Boateng Joseph Otoo Daniel A. Abaye 《Journal of Data Analysis and Information Processing》 2020年第4期341-357,共17页
In this paper, sixty-eight research articles published between 2000 and 2017 as well as textbooks which employed four classification algorithms: K-Nearest-Neighbor (KNN), Support Vector Machines (SVM), Random Forest (... In this paper, sixty-eight research articles published between 2000 and 2017 as well as textbooks which employed four classification algorithms: K-Nearest-Neighbor (KNN), Support Vector Machines (SVM), Random Forest (RF) and Neural Network (NN) as the main statistical tools were reviewed. The aim was to examine and compare these nonparametric classification methods on the following attributes: robustness to training data, sensitivity to changes, data fitting, stability, ability to handle large data sizes, sensitivity to noise, time invested in parameter tuning, and accuracy. The performances, strengths and shortcomings of each of the algorithms were examined, and finally, a conclusion was arrived at on which one has higher performance. It was evident from the literature reviewed that RF is too sensitive to small changes in the training dataset and is occasionally unstable and tends to overfit in the model. KNN is easy to implement and understand but has a major drawback of becoming significantly slow as the size of the data in use grows, while the ideal value of K for the KNN classifier is difficult to set. SVM and RF are insensitive to noise or overtraining, which shows their ability in dealing with unbalanced data. Larger input datasets will lengthen classification times for NN and KNN more than for SVM and RF. Among these nonparametric classification methods, NN has the potential to become a more widely used classification algorithm, but because of their time-consuming parameter tuning procedure, high level of complexity in computational processing, the numerous types of NN architectures to choose from and the high number of algorithms used for training, most researchers recommend SVM and RF as easier and wieldy used methods which repeatedly achieve results with high accuracies and are often faster to implement. 展开更多
关键词 classification algorithms NON-PARAMETRIC k-nearest-neighbor Neural Networks Random Forest Support Vector Machines
下载PDF
基于KNN的水电站水轮机监控系统研究
2
作者 谢科军 宋善坤 +2 位作者 胡婷 姚娟 张利益 《粘接》 2025年第1期193-196,共4页
针对大型水轮机轴承故障诊断和预警准确率低,导致抽水蓄能电站存在状态监测与运维管理效果不佳的问题,提出一种大型水轮机轴承润滑油液在线监测系统。利用电涡流传感器对轴承油液数据采集,采用改进的K最近邻算法对轴承故障进行准确分类... 针对大型水轮机轴承故障诊断和预警准确率低,导致抽水蓄能电站存在状态监测与运维管理效果不佳的问题,提出一种大型水轮机轴承润滑油液在线监测系统。利用电涡流传感器对轴承油液数据采集,采用改进的K最近邻算法对轴承故障进行准确分类与诊断。结果表明,通过改进KNN算法,得到新故障与集合A中故障识别球的相似度最大值为0.4787,低于相似度匹配阀值0.6,说明改进KNN算法可实现新故障类型的准确识别,具备一定的自适应性和可扩展性;实际应用也进一步证明该算法可满足对水轮机轴承的状态监测、故障诊断和预警需求,实现水电站的准确监测和智能化运维管理。 展开更多
关键词 抽水蓄能电站 水轮机组 在线油液监测 k近邻算法 故障诊断
下载PDF
Pruned fuzzy K-nearest neighbor classifier for beat classification 被引量:2
3
作者 Muhammad Arif Muhammad Usman Akram Fayyaz-ul-Afsar Amir Minhas 《Journal of Biomedical Science and Engineering》 2010年第4期380-389,共10页
Arrhythmia beat classification is an active area of research in ECG based clinical decision support systems. In this paper, Pruned Fuzzy K-nearest neighbor (PFKNN) classifier is proposed to classify six types of beats... Arrhythmia beat classification is an active area of research in ECG based clinical decision support systems. In this paper, Pruned Fuzzy K-nearest neighbor (PFKNN) classifier is proposed to classify six types of beats present in the MIT-BIH Arrhythmia database. We have tested our classifier on ~ 103100 beats for six beat types present in the database. Fuzzy KNN (FKNN) can be implemented very easily but large number of training examples used for classification can be very time consuming and requires large storage space. Hence, we have proposed a time efficient Arif-Fayyaz pruning algorithm especially suitable for FKNN which can maintain good classification accuracy with appropriate retained ratio of training data. By using Arif-Fayyaz pruning algorithm with Fuzzy KNN, we have achieved a beat classification accuracy of 97% and geometric mean of sensitivity of 94.5% with only 19% of the total training examples. The accuracy and sensitivity is comparable to FKNN when all the training data is used. Principal Component Analysis is used to further reduce the dimension of feature space from eleven to six without compromising the accuracy and sensitivity. PFKNN was found to robust against noise present in the ECG data. 展开更多
关键词 ARRHYTHMIA ECG k-nearest neighbor PRUNING FUZZY classification
下载PDF
基于密文KNN检索的室内定位隐私保护算法 被引量:2
4
作者 欧锦添 乐燕芬 施伟斌 《数据采集与处理》 CSCD 北大核心 2024年第2期456-470,共15页
在定位请求服务中,如何保护用户的位置隐私和位置服务提供商(Localization service provider,LSP)的数据隐私是关系到WiFi指纹定位应用的一个具有挑战性的问题。基于密文域的K-近邻(K-nearest neighbors,KNN)检索,本文提出了一种适用于... 在定位请求服务中,如何保护用户的位置隐私和位置服务提供商(Localization service provider,LSP)的数据隐私是关系到WiFi指纹定位应用的一个具有挑战性的问题。基于密文域的K-近邻(K-nearest neighbors,KNN)检索,本文提出了一种适用于三方的定位隐私保护算法,能有效提升对LSP指纹信息隐私的保护强度并降低计算开销。服务器和用户分别完成对指纹信息和定位请求的加密,而第三方则基于加密指纹库和加密定位请求,在隐私状态下完成对用户的位置估计。所提算法把各参考点的位置信息随机嵌入指纹,可避免恶意用户获取各参考点的具体位置;进一步利用布隆滤波器在隐藏接入点信息的情况下,第三方可完成参考点的在线匹配,实现对用户隐私状态下的粗定位,可与定位算法结合降低计算开销。在公共数据集和实验室数据集中,对两种算法的安全、开销和定位性能进行了全面的评估。与同类加密算法比较,在不降低定位精度的情况下,进一步增强了对数据隐私的保护。 展开更多
关键词 隐私保护 指纹定位 密文k-近邻检索 布隆滤波器 WIFI
下载PDF
坝肩岩体质量LDA-KNN分类模型 被引量:2
5
作者 荀鹏 李娟 +2 位作者 魏玉峰 李常虎 范文东 《成都理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期281-290,302,共11页
工程岩体质量分级评价对工程的安全、设计、经济效益等有重要影响。针对当前岩级划分方法中存在不确定性,人为因素干扰和忽视了传统定性分级中对岩体质量评价的重要性等问题,本文通过在工程实际中搜集样本建立数据库,从工程的实际需求出... 工程岩体质量分级评价对工程的安全、设计、经济效益等有重要影响。针对当前岩级划分方法中存在不确定性,人为因素干扰和忽视了传统定性分级中对岩体质量评价的重要性等问题,本文通过在工程实际中搜集样本建立数据库,从工程的实际需求出发,选择岩体完整性系数(K v)、结构面间距(D)、岩石质量指标(RQD)等合适的评价指标,通过引入LDA(Linear Discriminant Analysis)降维方法和K近邻分析(K-Nearest-Neighbor,KNN)相结合的多分类模型,实现了岩体的非线性分级预测。通过定性定量相结合实现了岩体多因素,多指标的综合分级,并解决了多指标判断时信息冗余,复杂程度高的问题。与其他判别方案相比较,模型得出的结果准确率高,符合工程实际,减少了人为因素的影响,体现出较强的预测判别能力。该研究为水电站大坝坝肩处的平硐岩体质量划分提出了一种可行的预测方案。 展开更多
关键词 岩体结构 岩体质量分级 线性降维 k近邻算法 分类模型
下载PDF
基于IKNN和LOF的变压器回复电压数据清洗方法研究 被引量:1
6
作者 陈啸轩 邹阳 +3 位作者 翁祖辰 林锦茄 林昕亮 张云霄 《电子测量与仪器学报》 CSCD 北大核心 2024年第2期92-100,共9页
基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近... 基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近邻(IKNN)的回复电压数据清洗方法。首先,选取回复电压极化谱的回复电压极大值Urmax、初始斜率Sr与主时间常数tcdom作为老化特征参量,并基于LOF算法对非标准极化谱中的异常特征量数据进行识别与筛除。其次,利用模糊C均值(FCM)聚类算法减小噪声点对KNN算法的干扰,并通过加权欧氏距离标度突出各特征量间的关联性,进而构建出基于IKNN的数据填补模型架构以实现特征缺失数据的填补。最后,代入多组实测数据验证所提数据清洗方法的实效性。结果表明,数据清洗后的状态评估准确率相较于原有数据上升了50%左右,有效提高了变压器回复电压数据质量,为准确感知变压器运行状况奠定坚实的基础。 展开更多
关键词 油纸绝缘 特征数据清洗 局部离群因子算法 回复电压极化谱 改进k最近邻算法
下载PDF
基于不规则区域划分方法的k-Nearest Neighbor查询算法 被引量:1
7
作者 张清清 李长云 +3 位作者 李旭 周玲芳 胡淑新 邹豪杰 《计算机系统应用》 2015年第9期186-190,共5页
随着越来越多的数据累积,对数据处理能力和分析能力的要求也越来越高.传统k-Nearest Neighbor(k NN)查询算法由于其容易导致计算负载整体不均衡的规则区域划分方法及其单个进程或单台计算机运行环境的较低数据处理能力.本文提出并详细... 随着越来越多的数据累积,对数据处理能力和分析能力的要求也越来越高.传统k-Nearest Neighbor(k NN)查询算法由于其容易导致计算负载整体不均衡的规则区域划分方法及其单个进程或单台计算机运行环境的较低数据处理能力.本文提出并详细介绍了一种基于不规则区域划分方法的改进型k NN查询算法,并利用对大规模数据集进行分布式并行计算的模型Map Reduce对该算法加以实现.实验结果与分析表明,Map Reduce框架下基于不规则区域划分方法的k NN查询算法可以获得较高的数据处理效率,并可以较好的支持大数据环境下数据的高效查询. 展开更多
关键词 k-nearest neighbor(k NN)查询算法 不规则区域划分方法 MAP REDUCE 大数据
下载PDF
基于PCA+KNN和kernal-PCA+KNN算法的废旧纺织物鉴别
8
作者 李宁宁 刘正东 +2 位作者 王海滨 韩熹 李文霞 《分析测试学报》 CAS CSCD 北大核心 2024年第7期1039-1045,共7页
该研究采集了15类废旧纺织物的4 998张近红外谱图,以7∶3的比例分为训练集和验证集,并分别采用主成分分析(PCA)与核主成分分析(kernal-PCA)两种不同降维方法对数据进行降维,并选用余弦相似度(cosine)核作为kernal-PCA的最佳核函数,最后... 该研究采集了15类废旧纺织物的4 998张近红外谱图,以7∶3的比例分为训练集和验证集,并分别采用主成分分析(PCA)与核主成分分析(kernal-PCA)两种不同降维方法对数据进行降维,并选用余弦相似度(cosine)核作为kernal-PCA的最佳核函数,最后分别将PCA和kernal-PCA降维处理后的数据进行k-近邻算法(KNN)训练。结果表明,kernal-PCA+KNN的模型准确率(95.17%)优于PCA+KNN模型的准确率(92.34%)。研究表明,kernal-PCA+KNN算法可以实现15类废旧纺织物识别准确率的提升,为废旧纺织物在线近红外自动分拣提供有力的技术支撑。 展开更多
关键词 废旧纺织物 主成分分析(PCA) 核主成分分析(kernel-PCA) k-近邻算法(knn) 分类识别
下载PDF
基于KNN算法的教学质量评价模型建立
9
作者 张晓东 张晓晓 《宁德师范学院学报(自然科学版)》 2024年第3期324-329,共6页
针对当前教学质量评价存在主观性较强的不足,基于K-最近邻(K-nearest neighbor,KNN)算法,提出教学质量评价模型.确立教学质量评价体系;以教学督导的评价数据为样本数据,通过交叉验证求解最近邻算法参数K的最佳值,从而建立教学质量评价模... 针对当前教学质量评价存在主观性较强的不足,基于K-最近邻(K-nearest neighbor,KNN)算法,提出教学质量评价模型.确立教学质量评价体系;以教学督导的评价数据为样本数据,通过交叉验证求解最近邻算法参数K的最佳值,从而建立教学质量评价模型.模型以专家数据为样本,评价精度高,评价结果具有较高的可靠性,能根据相关指标快速产生评价等级,提高了教学质量评价效率,使教学质量评价更加客观全面. 展开更多
关键词 教学质量评价 k-最近邻(knn)算法 交叉验证
下载PDF
基于PCA-BOA-KNN模型的水下爆炸舰船结构破损评估
10
作者 梁潇帝 刘寅东 《中国舰船研究》 CSCD 北大核心 2024年第3期150-157,共8页
[目的]为解决水下爆炸作用下舰船结构破口损伤评估问题,建立一种基于PCA-BOA-KNN模型的破口预报方法。[方法]首先,分别建立五舱段和七舱段有限元模型,对21组水下爆炸工况进行爆炸仿真分析;然后,基于主成分分析(PCA)法,对加速度峰值、速... [目的]为解决水下爆炸作用下舰船结构破口损伤评估问题,建立一种基于PCA-BOA-KNN模型的破口预报方法。[方法]首先,分别建立五舱段和七舱段有限元模型,对21组水下爆炸工况进行爆炸仿真分析;然后,基于主成分分析(PCA)法,对加速度峰值、速度峰值、位移峰值、应力峰值和超压峰值进行降维处理,得到2个本征特征量;最后,将由主成分分析法得到的结果代入贝叶斯网络优化(BOA)的KNN模型,通过建立的破口预报模型,预测一组工况下舰船不同剖面处的破口情况。[结果]结果显示,通过主成分分析法提取的前2个因子的累计贡献率为85.165%,这2个因子可代表5个特征量的主要信息;基于PCA-BOAKNN模型的破口预报结果与仿真结果基本一致。[结论]所提的预报模型方法对舰船结构破口预报有效,对于不同主尺度船体结构破口预报有一定的参考价值。 展开更多
关键词 结构分析 主成分分析 knn算法 水下爆炸
下载PDF
基于改进KNN近邻实体的知识图谱嵌入模型
11
作者 刘婕 孙更新 宾晟 《复杂系统与复杂性科学》 CAS CSCD 北大核心 2024年第2期30-37,共8页
为了更好地表示邻居节点数量较少的罕见实体,提出基于近邻实体的知识图谱嵌入模型NNKGE,使用K近邻算法获得目标实体的近邻实体作为扩展信息,并在此基础上提出RNNKGE模型,使用改进的K近邻算法获得目标实体在关系上的近邻实体,通过图记忆... 为了更好地表示邻居节点数量较少的罕见实体,提出基于近邻实体的知识图谱嵌入模型NNKGE,使用K近邻算法获得目标实体的近邻实体作为扩展信息,并在此基础上提出RNNKGE模型,使用改进的K近邻算法获得目标实体在关系上的近邻实体,通过图记忆网络对其编码生成增强的实体表示。通过对公共数据集上实验结果的分析,以上两个模型在仅使用近邻节点的情况下均实现了对基准模型(CoNE)的性能超越,缓解了数据稀疏问题并改善了知识表示性能。 展开更多
关键词 知识图谱 知识图谱嵌入 邻居节点 k近邻算法 图记忆网络
下载PDF
基于KNN-TCN模型的蒸发皿蒸发量预测研究
12
作者 谢育珽 郑翔天 +6 位作者 史俊才 刘萍 申文明 程文飞 李新华 杨静 邢云飞 《人民黄河》 CAS 北大核心 2024年第6期113-118,125,共7页
蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。选取我国北方地区14个地面国际交换站观测的7项气象数据,以时间卷积网络(TCN)模型为基础模型,运用K-近邻(KNN)算法对蒸发皿蒸发... 蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。选取我国北方地区14个地面国际交换站观测的7项气象数据,以时间卷积网络(TCN)模型为基础模型,运用K-近邻(KNN)算法对蒸发皿蒸发量的空间因素进行筛选,构建KNN-TCN蒸发皿蒸发量预测模型,并利用平均绝对误差、均方根误差和判定系数3项指标对目标站点的蒸发量预测精度进行评价。结果表明:1)KNN-TCN模型预测结果明显优于LSTM模型;2)相比基础TCN模型,KNN-TCN模型预测结果的判定系数提升了2.52%,平均绝对误差、均方根误差分别降低了23.97%、13.06%。 展开更多
关键词 蒸发皿蒸发量 时间卷积网络 k-近邻算法 空间因素
下载PDF
基于KNN和多特征融合的苹果叶部病害识别检测
13
作者 李亚文 陈月星 呼高翔 《食品与发酵科技》 CAS 2024年第4期25-32,共8页
准确识别与防治苹果叶部病害,能够有效提高苹果的产量与品质。以常见的苹果叶部病害(锈病、黑腐病、黑星病)为研究对象,构建基于KNN和多特征融合的无损检测模型。使用K-means聚类算法分割苹果叶部图像,通过颜色矩、灰度共生矩阵、Hu距... 准确识别与防治苹果叶部病害,能够有效提高苹果的产量与品质。以常见的苹果叶部病害(锈病、黑腐病、黑星病)为研究对象,构建基于KNN和多特征融合的无损检测模型。使用K-means聚类算法分割苹果叶部图像,通过颜色矩、灰度共生矩阵、Hu距分别提取图像的颜色、纹理和形状特征,利用KNN对特征参数进行分类模型训练,能够实现绿色准确识别苹果叶部病害的目的。实验结果表明,以颜色、纹理、形状为单特征检测的苹果叶部病害识别精确率分别为75%、57%、45%,其中颜色特征更加直观,有9个特征量识别率较高,形状特征在进行图像分割时很难确定K点导致识别率低。该研究基于颜色、纹理、形状等多特征融合提取13个特征量,能够准确识别苹果叶部病害,其识别率达84%,为实现绿色农业果园病虫害防治提供技术支持。 展开更多
关键词 k-近邻方法 k-MEANS聚类算法 多特征融合提取 苹果叶部 病害识别
下载PDF
基于投票加权GS-KNN的离心风机故障诊断
14
作者 曾学文 陈高超 +2 位作者 付名江 邵峰 伍仁杰 《节能》 2024年第1期47-50,共4页
风机作为火力发电的重要辅机,对其进行及时高效的故障诊断,可有效减少停机损失,提高火力发电效率。k近邻(KNN)对非平稳数据样本有良好的分类能力。为了改进传统KNN算法存在的缺陷,构建投票加权网格搜索-k近邻算法(投票加权GS-KNN)故障... 风机作为火力发电的重要辅机,对其进行及时高效的故障诊断,可有效减少停机损失,提高火力发电效率。k近邻(KNN)对非平稳数据样本有良好的分类能力。为了改进传统KNN算法存在的缺陷,构建投票加权网格搜索-k近邻算法(投票加权GS-KNN)故障诊断模型,利用网格搜索完成k值的选取,基于前k个近邻构建与距离值呈负相关的权值投票公式,依据投票得分情况进行故障诊断。使用投票加权GS-KNN模型对离心风机常见的9种运行状态进行故障诊断,拟合k值与准确率的关系,诊断准确率可达到100%。 展开更多
关键词 故障诊断 火力发电 网格搜索 k近邻算法 投票加权
下载PDF
基于WT-kNN的沥青混凝土心墙坝渗流监测数据异常检测
15
作者 毛建刚 阿尔娜古丽·艾买提 +1 位作者 颜志光 廖攀 《西北水电》 2024年第3期54-60,共7页
安全监测数据的质量,对沥青混凝土心墙坝安全状况分析具有重要意义。时间效应导致的趋势性问题是渗流监测数据异常检测的难点。模态分解方法能较好地对时间序列的趋势项进行分离,进而识别处异常信号。但是,土石坝渗流监测数据中的异常... 安全监测数据的质量,对沥青混凝土心墙坝安全状况分析具有重要意义。时间效应导致的趋势性问题是渗流监测数据异常检测的难点。模态分解方法能较好地对时间序列的趋势项进行分离,进而识别处异常信号。但是,土石坝渗流监测数据中的异常值和真实信号往往存在模态混叠。为了解决上述问题,通过引入了小波变换结合局部kNN加权回归(WT-kNN)异常检测方法,使用连续小波变换分离趋势项,通过局部kNN加权回归进一步对小波变换的检测结果进行筛选,提高模型的异常检测准确率。工程应用结果表明:对于粗差占比2.5%~10%的监测序列,WT-kNN的召回率均高于95%,误判率低于5%;该模型与WT-MAD方法和SSA-DBSCAN方法对比实验验证了WT-kNN的有效性和优越性。敏感性分析结果表明,提出模型对异常值数量占总数据量比例和异常值波动范围大小敏感性低,可为后续监测数据分析处理及预测预警建立基础。 展开更多
关键词 小波变换 局部k近邻算法 大坝安全监测 异常检测
下载PDF
改进型加权KNN算法的不平衡数据集分类 被引量:26
16
作者 王超学 潘正茂 +2 位作者 马春森 董丽丽 张涛 《计算机工程》 CAS CSCD 2012年第20期160-163,168,共5页
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚... K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类。基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法。 展开更多
关键词 不平衡数据集 分类 k最邻近算法 权重分配模型 遗传算法 k-MEANS算法
下载PDF
KNN数据挖掘算法在北京地区霾等级预报中的应用 被引量:53
17
作者 熊亚军 廖晓农 +6 位作者 李梓铭 张小玲 孙兆彬 赵秀娟 赵普生 马小会 蒲维维 《气象》 CSCD 北大核心 2015年第1期98-104,共7页
利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度... 利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度、露点温度、U风、V风分量以及PM_(2.5)浓度作为7个属性特征,以霾等级做为标志量构建训练样本集,结合KNN(KNearest Neighbor)数据挖掘算法构建疆等级预报分类器,并开展霾等级客观识别实验。结果表明K=3时该分类器的分类预报效果最佳,其13个站点的分类准确率高达88.2%。基于该算法构建的KNN模型预报无霾时的漏报概率很小,准确率高达91.8%;预报有轻度霾、中度霾以及重度霾时,空报的概率仅分别为4.7%、1.4%和2.6%。2014年8月29日至9月2日北京地区一次霾天气过程的预报结果表明:南郊观象台、密云和延庆3站的预报准确率分别达到74%、64%和84%,但霾等级的精度方面还有待于进一步提高。 展开更多
关键词 数据挖掘 knn 预报
下载PDF
基于KNN的特征自适应加权自然图像分类研究 被引量:17
18
作者 侯玉婷 彭进业 +1 位作者 郝露微 王瑞 《计算机应用研究》 CSCD 北大核心 2014年第3期957-960,共4页
针对自然图像类型广泛、结构复杂、分类精度不高的实际问题,提出了一种为自然图像不同特征自动加权值的K-近邻(K-nearest neighbors,KNN)分类方法。通过分析自然图像的不同特征对于分类结果的影响,采用基因遗传算法求得一组最优分类权... 针对自然图像类型广泛、结构复杂、分类精度不高的实际问题,提出了一种为自然图像不同特征自动加权值的K-近邻(K-nearest neighbors,KNN)分类方法。通过分析自然图像的不同特征对于分类结果的影响,采用基因遗传算法求得一组最优分类权值向量解,利用该最优权值对自然图像纹理和颜色两个特征分别进行加权,最后用自适应加权K-近邻算法实现对自然图像的分类。实验结果表明,在用户给定分类精度需求和低时间复杂度的约束下,算法能快速、高精度地进行自然图像分类。提出的自适应加权K-近邻分类方法对于门类繁多的自然图像具有普遍适用性,可以有效地提高自然图像的分类性能。 展开更多
关键词 k-近邻算法 基因算法 自然图像分类 特征加权
下载PDF
基于粗糙集的快速KNN文本分类算法 被引量:22
19
作者 孙荣宗 苗夺谦 +1 位作者 卫志华 李文 《计算机工程》 CAS CSCD 北大核心 2010年第24期175-177,共3页
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范... 传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。 展开更多
关键词 文本分类 k最近邻 粗糙集
下载PDF
基于Spark框架的高效KNN中文文本分类算法 被引量:19
20
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 k-最近邻 聚类 收缩因子 k-medoids SPARk 并行化计算
下载PDF
上一页 1 2 57 下一页 到第
使用帮助 返回顶部