期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于最小样本平面距离的支持向量机增量学习算法 被引量:3
1
作者 朱发 业宁 +1 位作者 潘冬寅 丁文 《计算机工程与设计》 CSCD 北大核心 2012年第1期346-350,共5页
支持向量机增量算法的关键是对历史样本集的剪辑,在历史样本集中选择出尽可能少又能表示尽可能多历史样本集信息的子集,再把这个子集与新增训练样本集放在一起进行训练。Liva Ralaivola[1]提出保留新增样本最近邻样本来表示历史样本集,... 支持向量机增量算法的关键是对历史样本集的剪辑,在历史样本集中选择出尽可能少又能表示尽可能多历史样本集信息的子集,再把这个子集与新增训练样本集放在一起进行训练。Liva Ralaivola[1]提出保留新增样本最近邻样本来表示历史样本集,而这样的最近邻样本中可能存在冗余样本。根据历史样本与分类平面间的距离可以去除新增样本最近邻样本集中的冗余样本。根据样本平面距离提出了MSPDISVM(minimum sample plane distance incremental support vector ma-chines)算法。实验结果表明,MSPDISVM比Liva Ralaivola提出的算法有更快的速度,而精度没有太大的差异。使用样本平面距离可以有效地去除新增样本最近邻中的冗余样本。 展开更多
关键词 支持向量机 增量学习 样本距离 样本平面距离 最小样本平面距离支持向量机增量学习算法
下载PDF
基于K最近邻样本平均距离的代价敏感算法的集成 被引量:6
2
作者 杨浩 王宇 张中原 《计算机应用》 CSCD 北大核心 2019年第7期1883-1887,共5页
为了解决不均衡数据集的分类问题和一般的代价敏感学习算法无法扩展到多分类情况的问题,提出了一种基于 K 最近邻( K NN)样本平均距离的代价敏感算法的集成方法。首先,根据最大化最小间隔的思想提出一种降低决策边界样本密度的重采样方... 为了解决不均衡数据集的分类问题和一般的代价敏感学习算法无法扩展到多分类情况的问题,提出了一种基于 K 最近邻( K NN)样本平均距离的代价敏感算法的集成方法。首先,根据最大化最小间隔的思想提出一种降低决策边界样本密度的重采样方法;接着,采用每类样本的平均距离作为分类结果的判断依据,并提出一种符合贝叶斯决策理论的学习算法,使得改进后的算法具备代价敏感性;最后,对改进后的代价敏感算法按 K 值进行集成,以代价最小为原则,调整各基学习器的权重,得到一个以总体误分代价最低为目标的代价敏感AdaBoost算法。实验结果表明,与传统的 K NN算法相比,改进后的算法在平均误分代价上下降了31.4个百分点,并且代价敏感性能更好。 展开更多
关键词 代价敏感 最大化最小间隔 样本距离 贝叶斯决策理论 集成
下载PDF
基于属性值相关距离的KNN算法的改进研究 被引量:28
3
作者 肖辉辉 段艳明 《计算机科学》 CSCD 北大核心 2013年第11A期157-159,187,共4页
样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样... 样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样本间的相似度。再根据此距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。理论分析及仿真实验结果表明,FCD-KNN算法较传统KNN及距离加权-KNN的分类准确性要高。 展开更多
关键词 KNN算法 相关距离 属性值 样本距离机制
下载PDF
余弦距离算法在固定资产管理系统中文本相似度查询的应用 被引量:1
4
作者 朱云峰 《无锡商业职业技术学院学报》 2013年第6期96-99,共4页
针对固定资产管理过程中,由于资产设备命名的不规范,导致资产名不匹配、资产找不到、资产设备重复统计等问题,提出了一个基于余弦距离算法的文本相似度查询方案。文章分析了资产设备命名不规范的原因,通过对聚类分析常用的几种距离算法... 针对固定资产管理过程中,由于资产设备命名的不规范,导致资产名不匹配、资产找不到、资产设备重复统计等问题,提出了一个基于余弦距离算法的文本相似度查询方案。文章分析了资产设备命名不规范的原因,通过对聚类分析常用的几种距离算法进行研究与比较,确定并通过程序实现了以余弦距离算法为基础的文本相似度查询的应用,对两种距离算法进行了测试,证明了余弦距离算法在固定资产管理系统中文本相似度查询中优势。 展开更多
关键词 文本相似度 样本距离算法 欧式距离算法 余弦距离算法
下载PDF
LS-SVM算法中优化训练样本对测深异常值剔除的影响 被引量:18
5
作者 黄贤源 翟国君 +3 位作者 隋立芬 黄谟涛 欧阳永忠 柴洪洲 《测绘学报》 EI CSCD 北大核心 2011年第1期22-27,共6页
在验证趋势面滤波是最小二乘支持向量机算法(LS-SVM)取特定参数解的基础上,利用LS-SVM所构造的海底趋势面对测深异常值进行剔除。为了克服LS-SVM解非稀疏性的缺点,同时抑制偏差较大的训练样本对海底趋势面构造的影响,提出一种基于局部... 在验证趋势面滤波是最小二乘支持向量机算法(LS-SVM)取特定参数解的基础上,利用LS-SVM所构造的海底趋势面对测深异常值进行剔除。为了克服LS-SVM解非稀疏性的缺点,同时抑制偏差较大的训练样本对海底趋势面构造的影响,提出一种基于局部样本中心距离的训练样本优化方法。为了检验该算法的有效性,选取实测的多波束测深数据进行验证,结果表明在训练样本优化的基础上,通过调整LS-SVM的参数可以得到更为合理的海底趋势面,测深异常值地剔除也更为有效。 展开更多
关键词 最小二乘支持向量机 趋势面滤波 局部样本中心距离 测深异常值
下载PDF
KNN改进算法在圈定地球化学元素异常区域上的应用 被引量:1
6
作者 曹赛男 张乾荣 +1 位作者 刘斌 周仲礼 《中国科技论文》 CAS 北大核心 2016年第15期1782-1785,共4页
以青海省大柴旦镇塔塔棱河中下游一带为研究区域,通过开展对1∶10 000土壤地球化学测量,采用KNN分类算法求取Au、Cu、Zn、Pb、As、Sb 6种元素的异常下限值,并作出异常图。通过后期工程验证,可以看出圈定的异常图对后期找矿具有明显的指... 以青海省大柴旦镇塔塔棱河中下游一带为研究区域,通过开展对1∶10 000土壤地球化学测量,采用KNN分类算法求取Au、Cu、Zn、Pb、As、Sb 6种元素的异常下限值,并作出异常图。通过后期工程验证,可以看出圈定的异常图对后期找矿具有明显的指示意义,说明运用KNN分类算法求取异常下限和确定异常区域是可行的。 展开更多
关键词 地球化学 异常下限 属性值 样本距离 KNN算法
下载PDF
一种基于组合保留集的SVM增量学习算法 被引量:6
7
作者 李妍坊 苏波 刘功申 《上海交通大学学报》 EI CAS CSCD 北大核心 2016年第7期1054-1059,共6页
传统的支持向量机(Support Vector Machine,SVM)分类算法不具有增量学习能力,为了减少新增样本加入后重新训练的时间并能适应海量数据的准确分类,提出了一种基于组合保留集的SVM增量学习算法.该算法以构建保留集为基础,采用缩放平移选... 传统的支持向量机(Support Vector Machine,SVM)分类算法不具有增量学习能力,为了减少新增样本加入后重新训练的时间并能适应海量数据的准确分类,提出了一种基于组合保留集的SVM增量学习算法.该算法以构建保留集为基础,采用缩放平移选择法选择样本,且利用了组合保留的思想,对原训练集样本和增量样本集中满足KKT(Karush-Kuhn-Tucker)条件的样本分别进行部分保留,并赋予样本权重,再依据权重挑选部分保留样本与原支持向量集和增量样本中违背KKT条件的样本合并进行训练,从而实现原有样本知识的积累和新样本知识的学习.实验结果表明,该算法在加快分类速度的同时提高了分类精度. 展开更多
关键词 支持向量机 增量学习 保留集 样本距离
下载PDF
确定叶片型线最佳角度的振荡算法
8
作者 朴明波 毛君 李深亮 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2015年第8期974-978,共5页
针对叶片轮廓度判定时获取使型线点到公差带距离样本方差最小的型线最佳角度问题,采用了一种确定型线最佳角度的振荡算法.算法原理是令型线点绕旋转中心以一定角度振荡并计算距离样本方差,从得到的距离样本方差中找到最小值,再令型线点... 针对叶片轮廓度判定时获取使型线点到公差带距离样本方差最小的型线最佳角度问题,采用了一种确定型线最佳角度的振荡算法.算法原理是令型线点绕旋转中心以一定角度振荡并计算距离样本方差,从得到的距离样本方差中找到最小值,再令型线点绕旋转中心以最小值对应的角度为新的当前角度继续振荡,直到正振荡距离样本方差和负振荡距离样本方差的差值满足给定误差为止.利用基于VC2010平台和NX/Open API开发的实验平台验证了该算法,实验结果表明,该算法可以快速、准确地确定型线的最佳角度,可实际应用于叶片轮廓度判定. 展开更多
关键词 振荡算法 轮廓度判定 距离样本方差 UG二次开发 NX/Open API
下载PDF
Novel technique for cost reduction in mutation testing 被引量:1
9
作者 蒋玉婷 李必信 《Journal of Southeast University(English Edition)》 EI CAS 2011年第1期17-21,共5页
Aimed at the problem of expensive costs in mutation testing which has hampered its wide use,a technique of introducing a test case selection into the process of mutation testing is proposed.For each mutant,a fixed num... Aimed at the problem of expensive costs in mutation testing which has hampered its wide use,a technique of introducing a test case selection into the process of mutation testing is proposed.For each mutant,a fixed number of test cases are selected to constrain the maximum allowable executions so as to reduce useless work.Test case selection largely depends on the degree of mutation.The mutation distance is an index describing the semantic difference between the original program and the mutated program.It represents the percentage of effective test cases in a test set,so it can be used to guide the selection of test cases.The bigger the mutation distance is,the easier it is that the mutant will be killed,so the corresponding number of effective test cases for this mutant is greater.Experimental results suggest that the technique can remarkably reduce execution costs without a significant loss of test effectiveness. 展开更多
关键词 mutation testing mutation distance sample learning execution cost test case selection
下载PDF
DGD卷积神经网络行人重识别 被引量:2
10
作者 杨忠桃 章东平 +1 位作者 杨力 井长兴 《中国计量大学学报》 2017年第4期504-508,共5页
行人重识别在视频监控领域是一个非常具有挑战性的问题,不同的摄像头位置角度、光照等因素会使同一行人的图像差异较大.文章提出一种DGD(Domain Guided Dropout)卷积神经网络(CNN)与样本相对距离结合的行人重识别算法:首先,通过卷积神... 行人重识别在视频监控领域是一个非常具有挑战性的问题,不同的摄像头位置角度、光照等因素会使同一行人的图像差异较大.文章提出一种DGD(Domain Guided Dropout)卷积神经网络(CNN)与样本相对距离结合的行人重识别算法:首先,通过卷积神经网络来提取来自多个域的数据中具有一般性及鲁棒性的特征;其次,通过计算各个特征样本之间的相对距离来筛选出更具有一般性及鲁棒性的特征;最后,比较筛选出的特征间的欧氏距离进行重识别.实验结果表明,该算法能够提高行人重识别的效率. 展开更多
关键词 卷积神经网络 样本相对距离 欧氏距离
下载PDF
Effects of flashing green on driver's stop/go decision at signalized intersection 被引量:2
11
作者 沈家军 王炜 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第2期771-778,共8页
The primary objective of this work is to explore how drivers react to flashing green at signalized intersections. Through video taping and data procession based on photogrammetry, the operating speeds of vehicles befo... The primary objective of this work is to explore how drivers react to flashing green at signalized intersections. Through video taping and data procession based on photogrammetry, the operating speeds of vehicles before and after the moment when flashing green started was compared using paired-samples T-test. The critical distances between go and stop decisions was defined through cumulative percentage curve. The boundary of dilemma zone was determined by comparing stop distance and travel distance.Amber-running violation was analyzed on the basis of the travel time to the stop line. And finally, a logistic model for stop and go decisions was constructed. The results shows that the stopping ratios of the first vehicles of west-bound and east-bound approaches are 41.3% and 39.8%, respectively; the amber-light running violation ratios of two approaches are 31.6% and 25.4%, respectively;the operating speed growth ratios of first vehicles selecting to cross intersection after the moment when flashing green started are26.7% and 17.7%, respectively; and the critical distances are 48 m and 46 m, respectively, which are close to 44 m, the boundary of dilemma zone. The developed decision models demonstrate that the probability of go decision is higher when the distance from the stop line is shorter or operating speed is higher. This indicates that flashing green is an effective way to enhance intersection safety,but it should work together with a strict enforcement. In addition, traffic signs near critical distance and reasonable speed limitation are also beneficial to the safety of intersections. 展开更多
关键词 signalized intersections flashing green critical distance dilemma zone amber-running violation logistic decision model
下载PDF
基于不平衡数据样本特性的新型过采样SVM分类算法 被引量:27
12
作者 黄海松 魏建安 康佩栋 《控制与决策》 EI CSCD 北大核心 2018年第9期1549-1558,共10页
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出... 针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性. 展开更多
关键词 数据集不平衡 样本距离 ANBSC-Smote过采样 数据集重构 支持向量机
原文传递
运用组合加权距离函数的多指标面板数据聚类方法及应用
13
作者 王少波 贾来喜 《武警工程大学学报》 2015年第6期1-4,共4页
针对多指标面板数据聚类分析的样品分类和空间地域划分,提出了一个多指标面板数据的综合聚类分析方法。从多元统计和层次分析角度,构造了多指标面板数据的样本距离函数。通过实证分析证明,该方法在能够满足系统分析的统一性要求的同... 针对多指标面板数据聚类分析的样品分类和空间地域划分,提出了一个多指标面板数据的综合聚类分析方法。从多元统计和层次分析角度,构造了多指标面板数据的样本距离函数。通过实证分析证明,该方法在能够满足系统分析的统一性要求的同时,保证指标之间的不相关;能够克服时间维度上均值处理的缺陷,信息损失较少;体现了指标间的主次差别。 展开更多
关键词 多指标面板数据 聚类分析 样本距离函数
原文传递
基于收缩近邻方法的征信缺失数据插补研究 被引量:5
14
作者 夏利宇 何晓群 《数学的实践与认识》 北大核心 2017年第8期147-153,共7页
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失... 在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量. 展开更多
关键词 征信数据 缺失插补 样本距离 随机森林
原文传递
Cross-Entropy Minimization Estimation for Two-Phase Sampling and Non-Response
15
作者 WU Changchun TANG Linjun ZHANG Shangli 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2015年第2期489-503,共15页
This paper considers the problem of estimating the finite population total in two-phase sampling when some information on auxiliary variable is available. The authors employ an informationtheoretic approach which make... This paper considers the problem of estimating the finite population total in two-phase sampling when some information on auxiliary variable is available. The authors employ an informationtheoretic approach which makes use of effective distance between the estimated probabilities and the empirical frequencies. It is shown that the proposed cross-entropy minimization estimator is more efficient than the usual estimator and has some desirable large sample properties. With some necessary modifications, the method can be applied to two-phase sampling for stratification and non-response. A simulation study is presented to assess the finite sample performance of the proposed estimator. 展开更多
关键词 Auxiliary information cross-entropy minimization estimation finite population NONRESPONSE two-phase sampling.
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部