期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于UCI数据集的OCR光学字符识别 被引量:2
1
作者 史素霞 常婉秋 宋志英 《科技创新与应用》 2022年第35期50-53,共4页
该文通过实验利用公开规范的UCI数据集通过3个步骤建立字符识别模型,一是基于主成分分析,提取UCI记录中有较好识别效果的变量因子;二是基于逐步回归,初步建立字符识别模型;三是基于BP神经网络,对识别模型的各参数进行优化。结果表明,UC... 该文通过实验利用公开规范的UCI数据集通过3个步骤建立字符识别模型,一是基于主成分分析,提取UCI记录中有较好识别效果的变量因子;二是基于逐步回归,初步建立字符识别模型;三是基于BP神经网络,对识别模型的各参数进行优化。结果表明,UCI数据集中记录的16个参数变量可以通过7个主成分因子进行很好的描述;初步建立的回归识别模型显著性水平等于0.05;通过BP神经网络的学习优化,最终建立的识别模型精度为87.5%。总体来说,数据的预处理和神经网络的学习精度是字符识别精度的关键,可以通过对大量UCI数据集进行训练,提高字符识别的精度。 展开更多
关键词 字符识别 主成分分析 逐步回归模型 BP神经网络 uci数据集
下载PDF
基于离群点检测的K-means算法 被引量:3
2
作者 冷泳林 张清辰 +1 位作者 赵亮 鲁富宇 《渤海大学学报(自然科学版)》 CAS 2014年第1期34-38,48,共6页
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子... K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性. 展开更多
关键词 聚类 K—means算法 离群点 uci数据集
下载PDF
面向多视角数据的极大熵聚类算法 被引量:3
3
作者 张丹丹 邓赵红 王士同 《计算机科学与探索》 CSCD 北大核心 2016年第4期554-564,共11页
当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算... 当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,Co MEC),该算法加入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将Co MEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-Co MEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。 展开更多
关键词 多视角聚类 划分 权值 集成策略 uci数据集
下载PDF
不同的距离测量方法对人工免疫识别系统的性能影响 被引量:1
4
作者 邓泽林 谭冠政 +1 位作者 范必双 叶吉祥 《计算机应用研究》 CSCD 北大核心 2011年第6期2043-2045,共3页
为了分析不同的距离测量方法对AIRS的性能影响,采用三种距离测量方法实现AIRS,这三种方法分别是Euclidean距离、Manhattan距离和RBF核空间距离,并将三种用不同距离测量方法实现的AIRS算法应用于Iris、Heart和W ine数据集的分类测试。所... 为了分析不同的距离测量方法对AIRS的性能影响,采用三种距离测量方法实现AIRS,这三种方法分别是Euclidean距离、Manhattan距离和RBF核空间距离,并将三种用不同距离测量方法实现的AIRS算法应用于Iris、Heart和W ine数据集的分类测试。所获得的三组数据集分类的准确率和抗体规模进行了相互比较,结果表明采用Manhattan距离AIRS算法获得了对Iris和Heart的最高分类准确率,而采用核空间距离算法获得了对W ine的最高分类准确率。从抗体群体规模来看,采用核空间距离则能获得最小的抗体群体。从性能比较可知,不同的距离测量方法对AIRS算法的分类性能有较大的影响。 展开更多
关键词 人工免疫识别系统 距离测量方法 分类性能 uci数据集
下载PDF
基于FCM与KKT条件的增量学习方法 被引量:2
5
作者 张国兵 郎荣玲 《电子设计工程》 2014年第10期25-27,31,共4页
增量学习方法的思想是仅利用部分相关的样本集参与训练,即能够保留历史样本知识,又能够不断地吸收新的知识,提高机器学习效率和精度,解决了大量样本训练时间长和存储空间不足的问题。因此,如何有效地丢弃大量无效的样本点是增量学习算... 增量学习方法的思想是仅利用部分相关的样本集参与训练,即能够保留历史样本知识,又能够不断地吸收新的知识,提高机器学习效率和精度,解决了大量样本训练时间长和存储空间不足的问题。因此,如何有效地丢弃大量无效的样本点是增量学习算法研究的重点。文中提出了一种FCM(Fuzzy C-Means)和KKT(Karush-KuhnTucker)条件结合的增量学习方法,分别从历史样本集和新增样本集两个阶段对无效样本进行过滤,利用余下的样本进行训练。最后,利用UCI数据库中的4组数据进行实验分析,结果证明训练精度与全数据样本的训练精度几乎完全拟合。 展开更多
关键词 FCM KKT 训练精度 支持向量 uci数据库
下载PDF
一种新的基于属性频率的属性约简算法
6
作者 龚安 牛秋丽 +1 位作者 高博 刘华山 《微计算机应用》 2007年第11期1138-1141,共4页
针对目前粗糙集属性约简速度比较慢、不能得到属性约简集的问题,提出了一种新的属性约简算法。通过理论分析、具体的实例和UCI数据集验证,该算法可以确保得到决策表的一个约简,并能减少计算量,提高计算速度。同时算法中引入了强等价集,... 针对目前粗糙集属性约简速度比较慢、不能得到属性约简集的问题,提出了一种新的属性约简算法。通过理论分析、具体的实例和UCI数据集验证,该算法可以确保得到决策表的一个约简,并能减少计算量,提高计算速度。同时算法中引入了强等价集,很好地解决了属性加权频率值相同的问题。 展开更多
关键词 属性约简 属性频率 强等价集 uci数据集
下载PDF
一种基于软调和函数的有条件异常检测方案研究
7
作者 黎华 《计算机应用与软件》 CSCD 2015年第5期65-69,79,共6页
对有条件异常检测问题展开研究,以检测出响应异常或类别异常的数据实例。基于软调和函数,提出一种新的无参数有条件异常检测算法。该算法基于软调和解,可估计类别置信度,进而检测出异常类别划分。同时对调和解进行正规化,以避免检测孤... 对有条件异常检测问题展开研究,以检测出响应异常或类别异常的数据实例。基于软调和函数,提出一种新的无参数有条件异常检测算法。该算法基于软调和解,可估计类别置信度,进而检测出异常类别划分。同时对调和解进行正规化,以避免检测孤立样本和分布支持边界样本。基于数种合成数据和UCI ML数据进行实验,通过与其他基准算法进行比较,验证了该算法在检测异常分类方面的有效性。最后基于真实电子医疗记录数据(检测病人管理异常决策)对所提算法的性能进行了评估。 展开更多
关键词 有条件异常检测 类别置信度 正规化 软调和解 合成数据 uci ML 数据
下载PDF
一种两层结构集成的协同分类算法
8
作者 刘宁 《微型电脑应用》 2015年第5期33-35,共3页
为了提高数据分类性能,提出一种双层分类器集成的协同分类算法CCTL。算法由训练算法和测试算法两部分组成。算法采用双层结构集成,使用多条件进行决策判断。第一层中采用三分类器协同投票一致策略实现对未知样本进行分类,第二层中采用... 为了提高数据分类性能,提出一种双层分类器集成的协同分类算法CCTL。算法由训练算法和测试算法两部分组成。算法采用双层结构集成,使用多条件进行决策判断。第一层中采用三分类器协同投票一致策略实现对未知样本进行分类,第二层中采用基于正确分类率的分类器加权投票决策实现数据分类,提高分类率高的分类器的权值,减小分类率低的分类器的权值。最后,使用UCI数据集进行实验,结果表明CCTL较好地提高了分类率。 展开更多
关键词 协同学习 分类 集成学习 机器学习 uci数据集
下载PDF
一种用于非平衡数据分类的集成学习模型 被引量:5
9
作者 焦盛岚 杨炳儒 +1 位作者 翟云 赵万里 《计算机工程与应用》 CSCD 2012年第29期119-123,219,共6页
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器... 针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合。采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果。 展开更多
关键词 非平衡数据 集成学习模型 基本分类器 改进的支持向量机-K最近邻(SVM-KNN) uci数据集
下载PDF
基于集成学习的不完备数据补全算法研究 被引量:5
10
作者 丁敬安 张欣海 +1 位作者 胡博 周国民 《中国电子科学研究院学报》 北大核心 2020年第1期78-83,91,共7页
在数据挖掘领域中,对不完备数据进行补全,能够有效修复残缺的信息,提高挖掘效率和建模成功率。在大数据场景下,数据缺失机制的复杂性和数据的多源互补性得以呈现,以往单纯通过数据分布分析或关联分析进行分离修补的算法效果有限。文中... 在数据挖掘领域中,对不完备数据进行补全,能够有效修复残缺的信息,提高挖掘效率和建模成功率。在大数据场景下,数据缺失机制的复杂性和数据的多源互补性得以呈现,以往单纯通过数据分布分析或关联分析进行分离修补的算法效果有限。文中结合数据分布和属性关联两种角度,提出一种以EM、KNN、RF等8种算法为基学习器的异质集成学习数据补全算法模型HELITW,在Iris、Boston等5种UCI机器学习标准数据集为基础,分别以10%、20%和30%比例建立的随机缺失机制数据集上,将HELITW与其他8种算法进行数据补全实验对比研究,实验结果表明:随着数据残缺比例的增加,9种模型的修补效果总体上都随之降低;但在相同实验条件下,HELITW模型补全效果优于其它8种模型。 展开更多
关键词 不完备数据 uci数据集 异质集成学习 HELITW
下载PDF
一种基于标准差的K-medoids聚类算法 被引量:4
11
作者 邓玉芳 张继福 《计算机技术与发展》 2020年第8期53-60,共8页
K-medoids聚类分析具有对孤立点敏感度较低和良好的鲁棒性等特点,但由于初始聚类中心的选取和中心点迭代更新等,聚类精度和效率较低。文中根据标准差体现数据离散程度,定义了初始中心点候选集,给出了一种基于标准差的K-medoids聚类算法... K-medoids聚类分析具有对孤立点敏感度较低和良好的鲁棒性等特点,但由于初始聚类中心的选取和中心点迭代更新等,聚类精度和效率较低。文中根据标准差体现数据离散程度,定义了初始中心点候选集,给出了一种基于标准差的K-medoids聚类算法。该算法首先利用标准差定义了初始中心点候选集,并采用逐步增加的方式确定初始中心点,从而保证了选取密集程度较大的样本点作初始聚类中心点,同时避免选取到密集程度较低的样本点尤其是孤立点作为初始中心点;其次,按照数据样本归属于最近的中心点的原则,形成初始聚类簇,不断更新聚类中心点,直到聚类误差平方和相同为止,形成聚类簇;最后,在UCI数据集和人工数据集上的实验验证了该聚类算法具有良好的聚类精度、效率和鲁棒性。 展开更多
关键词 K-medoids聚类算法 初始中心点 标准差 uci数据集
下载PDF
一种基于竞争型群体优化的数据聚类方法 被引量:3
12
作者 秦映波 曹步清 邓春晖 《计算机与现代化》 2019年第1期75-79,100,共6页
数据聚类在智能信息处理中具有非常重要的作用。传统的数据聚类方法,如K-means算法,存在对初始聚类中心敏感等问题。随着智能优化算法的发展,人们用智能优化算法进行数据聚类取得了一定的效果,但存在容易陷入局部最优等问题。为此,本文... 数据聚类在智能信息处理中具有非常重要的作用。传统的数据聚类方法,如K-means算法,存在对初始聚类中心敏感等问题。随着智能优化算法的发展,人们用智能优化算法进行数据聚类取得了一定的效果,但存在容易陷入局部最优等问题。为此,本文将在高维优化问题中取得良好效果的竞争型群体优化算法中引入数据聚类,利用竞争型群体优化算法强大的全局探索能力搜索聚类中心进行数据聚类,在UCI的5个数据集上的实验结果表明竞争型群体优化算法比遗传算法、粒子群算法不仅能得到更好的聚类效果,而且收敛性能更好。 展开更多
关键词 聚类 竞争型群体优化 uci数据集
下载PDF
基于粗糙集和改进二进制布谷鸟搜索算法的高维数据特征选择 被引量:3
13
作者 章成旭 叶绍强 +1 位作者 周恺卿 欧云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期584-593,共10页
在大数据时代,数据多具有规模大、类别多、维度高和样本小等特点,使其特征空间中存在大量冗余和不相关的信息.这些冗余及不相关信息会影响模型的性能,增加计算负担,故特征子集的筛选是数据处理中不可或缺的一环.针对特征选择的数据量大... 在大数据时代,数据多具有规模大、类别多、维度高和样本小等特点,使其特征空间中存在大量冗余和不相关的信息.这些冗余及不相关信息会影响模型的性能,增加计算负担,故特征子集的筛选是数据处理中不可或缺的一环.针对特征选择的数据量大、分类准确率低的问题,提出一种基于粗糙集和改进二进制布谷鸟搜索算法的高维数据特征选择模型.首先,为了加强布谷鸟算法的寻优能力,融合差分进化中变异交叉选择的思想;其次,利用新的鸟巢更新机制寻找优质特征,提升特征选择效果;最后,结合粗糙集构建合适的适应度函数进行评判.为了验证算法的性能,在UCI数据集上选取三种不同分类器进行实验,并利用Friedman检验与Nemenyi后续检验对实验数据进行评估.实验结果表明,提出算法的平均分类准确率达到88.7%,和其他算法相比,在特征选择方面更有优势. 展开更多
关键词 特征选择 粗糙集 二进制布谷鸟搜索算法 差分进化 uci数据集
下载PDF
A Novel Method Based on Nonlinear Binary Grasshopper Whale Optimization Algorithm for Feature Selection 被引量:1
14
作者 Lingling Fang Xiyue Liang 《Journal of Bionic Engineering》 SCIE EI CSCD 2023年第1期237-252,共16页
Feature Selection(FS)is considered as an important preprocessing step in data mining and is used to remove redundant or unrelated features from high-dimensional data.Most optimization algorithms for FS problems are no... Feature Selection(FS)is considered as an important preprocessing step in data mining and is used to remove redundant or unrelated features from high-dimensional data.Most optimization algorithms for FS problems are not balanced in search.A hybrid algorithm called nonlinear binary grasshopper whale optimization algorithm(NL-BGWOA)is proposed to solve the problem in this paper.In the proposed method,a new position updating strategy combining the position changes of whales and grasshoppers population is expressed,which optimizes the diversity of searching in the target domain.Ten distinct high-dimensional UCI datasets,the multi-modal Parkinson's speech datasets,and the COVID-19 symptom dataset are used to validate the proposed method.It has been demonstrated that the proposed NL-BGWOA performs well across most of high-dimensional datasets,which shows a high accuracy rate of up to 0.9895.Furthermore,the experimental results on the medical datasets also demonstrate the advantages of the proposed method in actual FS problem,including accuracy,size of feature subsets,and fitness with best values of 0.913,5.7,and 0.0873,respectively.The results reveal that the proposed NL-BGWOA has comprehensive superiority in solving the FS problem of high-dimensional data. 展开更多
关键词 Feature selection Hybrid bionic optimization algorithm Biomimetic position updating strategy Nature-inspired algorithm-High-dimensional uci datasets-Multi-modal medical datasets
原文传递
基于带约束最大间隔的贝叶斯分类器判别学习方法(英文) 被引量:1
15
作者 Ke GUO Xia-bi LIU +2 位作者 Lun-hao GUO Zong-jie LI Zeng-min GENG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第5期639-650,共12页
提出一种新的面向贝叶斯模式分类的判别学习方法,称作"带约束的最大间隔(CMM)方法"。通过计算正样本最小决策值和负样本最大决策值的差异,定义类别之间的类别间隔。基于该类别间隔和正确分类的约束,将间隔函数学习问题转化为... 提出一种新的面向贝叶斯模式分类的判别学习方法,称作"带约束的最大间隔(CMM)方法"。通过计算正样本最小决策值和负样本最大决策值的差异,定义类别之间的类别间隔。基于该类别间隔和正确分类的约束,将间隔函数学习问题转化为最大化类别间隔问题。利用序列无约束最小化技术解决该非线性规划问题。运用CMM方法得到基于高斯混合模型的贝叶斯分类器,并在10个UCI数据集上进行实验。结果表明,利用CMM方法得到的分类器分类性能,明显优于代表性的生成式学习方法期望最大化(EM)和判别式学习方法支持向量机(SVM),并且在多个数据集上取得了相比之前最优结果更好的效果。分类实验和分类器对比实验证明,CMM方法有效,具有一定应用前景。 展开更多
关键词 学习问题 分类器 贝叶斯 期望最大化算法 GAUSSIAN 模式分类 训练模式 混合模型
原文传递
基于人工数据产生器的噪声检测评价框架
16
作者 尹华 董红斌 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2011年第5期676-680,共5页
数据挖掘中的噪声检测算法评价多以UCI真实数据为基准数据集,加入模拟的随机噪声,以除去噪声后对挖掘算法性能的提升作为检测效果的评价指标.真实数据内部结构的未知性、随机噪声水平的不确定性,评价指标的单一性使噪声检测算法评价缺... 数据挖掘中的噪声检测算法评价多以UCI真实数据为基准数据集,加入模拟的随机噪声,以除去噪声后对挖掘算法性能的提升作为检测效果的评价指标.真实数据内部结构的未知性、随机噪声水平的不确定性,评价指标的单一性使噪声检测算法评价缺乏标准,不易实现算法横向对比.基于此,首先对现有的噪声检测算法评价方法进行分析,提出基于人工数据产生器的噪声检测评价框架及组件,设计了一种基于规则的标准数据产生器及引入随机噪声模型的方法,并提供了具体的评价指标,最后对框架的合理性进行了分析. 展开更多
关键词 噪声检测 人工数据产生器 评价指标 uci
原文传递
动态ER Rule分类器构建与应用
17
作者 赵蕊蕊 孙建彬 +2 位作者 游雅倩 于海跃 姜江 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2022年第8期2258-2276,共19页
基于证据推理规则(ER Rule)的分类器为带有不确定性的数据分类问题提供了一种新的有效解决方案,属性参考值数量能较大程度上影响分类的准确率和复杂性,而目前针对先验知识较匮乏时如何合理确定参考值数量的研究较少.为此,本文提出了一... 基于证据推理规则(ER Rule)的分类器为带有不确定性的数据分类问题提供了一种新的有效解决方案,属性参考值数量能较大程度上影响分类的准确率和复杂性,而目前针对先验知识较匮乏时如何合理确定参考值数量的研究较少.为此,本文提出了一种动态ER Rule分类器.首先,以最小化均方误差为优化目标,通过智能优化算法获取动态ER Rule分类器的最优参考值和权重;然后,以最大化测试集准确率为目标,通过多次随机实验获取参考值数量最优值;在此基础上,给出了基于PSO的动态ER Rule分类器实现方式.以5个UCI基准数据集为例,说明了本文所提动态ER Rule分类器的有效性和稳定性;并通过遥感图像蓝藻水华识别问题,验证了动态ER Rule分类器在实际应用中的可行性.结果表明,动态ER Rule分类器在保证分类准确率的同时,为确定属性参考值数量提供了一种客观的方法,对ER Rule在其他领域的推广应用具有一定参考意义. 展开更多
关键词 证据推理规则(ER Rule) 粒子群优化算法 动态分类器 uci数据集 蓝藻水华识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部