期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于UCI数据集的OCR光学字符识别 被引量:2
1
作者 史素霞 常婉秋 宋志英 《科技创新与应用》 2022年第35期50-53,共4页
该文通过实验利用公开规范的UCI数据集通过3个步骤建立字符识别模型,一是基于主成分分析,提取UCI记录中有较好识别效果的变量因子;二是基于逐步回归,初步建立字符识别模型;三是基于BP神经网络,对识别模型的各参数进行优化。结果表明,UC... 该文通过实验利用公开规范的UCI数据集通过3个步骤建立字符识别模型,一是基于主成分分析,提取UCI记录中有较好识别效果的变量因子;二是基于逐步回归,初步建立字符识别模型;三是基于BP神经网络,对识别模型的各参数进行优化。结果表明,UCI数据集中记录的16个参数变量可以通过7个主成分因子进行很好的描述;初步建立的回归识别模型显著性水平等于0.05;通过BP神经网络的学习优化,最终建立的识别模型精度为87.5%。总体来说,数据的预处理和神经网络的学习精度是字符识别精度的关键,可以通过对大量UCI数据集进行训练,提高字符识别的精度。 展开更多
关键词 字符识别 主成分分析 逐步回归模型 BP神经网络 uci数据集
下载PDF
集成数据预处理技术及其在机器学习算法中的应用 被引量:1
2
作者 郭旗 《科技与创新》 2023年第23期163-165,共3页
随着计算机技术的飞速发展,各个领域的数据量呈指数上升,如何处理大体量的数据以保证数据的质量和可用性是机器学习建模过程中不可缺少的一部分。作为建模的首要部分,数据预处理技术的精度直接影响算法的性能。在已有研究的基础上提出... 随着计算机技术的飞速发展,各个领域的数据量呈指数上升,如何处理大体量的数据以保证数据的质量和可用性是机器学习建模过程中不可缺少的一部分。作为建模的首要部分,数据预处理技术的精度直接影响算法的性能。在已有研究的基础上提出了一种新颖的数据预处理方法,将数据预处理过程的不同方面集成到一起,构造出基于集成的数据预处理方法,最后在UCI数据库中(UCI数据库是加州大学欧文分校University of California Irvine提出的用于机器学习的数据库)3个经典数据集的基础上进行实证研究,并使用决策树、支持向量机、神经网络这3种机器学习算法来验证集成数据预处理技术的可行性和提高预测性能的有效性。 展开更多
关键词 数据预处理 成方法 机器学习 uci数据集
下载PDF
一种用于非平衡数据分类的集成学习模型 被引量:5
3
作者 焦盛岚 杨炳儒 +1 位作者 翟云 赵万里 《计算机工程与应用》 CSCD 2012年第29期119-123,219,共6页
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器... 针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合。采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果。 展开更多
关键词 非平衡数据 成学习模型 基本分类器 改进的支持向量机-K最近邻(SVM-KNN) uci数据集
下载PDF
基于集成学习的不完备数据补全算法研究 被引量:5
4
作者 丁敬安 张欣海 +1 位作者 胡博 周国民 《中国电子科学研究院学报》 北大核心 2020年第1期78-83,91,共7页
在数据挖掘领域中,对不完备数据进行补全,能够有效修复残缺的信息,提高挖掘效率和建模成功率。在大数据场景下,数据缺失机制的复杂性和数据的多源互补性得以呈现,以往单纯通过数据分布分析或关联分析进行分离修补的算法效果有限。文中... 在数据挖掘领域中,对不完备数据进行补全,能够有效修复残缺的信息,提高挖掘效率和建模成功率。在大数据场景下,数据缺失机制的复杂性和数据的多源互补性得以呈现,以往单纯通过数据分布分析或关联分析进行分离修补的算法效果有限。文中结合数据分布和属性关联两种角度,提出一种以EM、KNN、RF等8种算法为基学习器的异质集成学习数据补全算法模型HELITW,在Iris、Boston等5种UCI机器学习标准数据集为基础,分别以10%、20%和30%比例建立的随机缺失机制数据集上,将HELITW与其他8种算法进行数据补全实验对比研究,实验结果表明:随着数据残缺比例的增加,9种模型的修补效果总体上都随之降低;但在相同实验条件下,HELITW模型补全效果优于其它8种模型。 展开更多
关键词 不完备数据 uci数据集 异质成学习 HELITW
下载PDF
基于粗糙集和改进二进制布谷鸟搜索算法的高维数据特征选择 被引量:3
5
作者 章成旭 叶绍强 +1 位作者 周恺卿 欧云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期584-593,共10页
在大数据时代,数据多具有规模大、类别多、维度高和样本小等特点,使其特征空间中存在大量冗余和不相关的信息.这些冗余及不相关信息会影响模型的性能,增加计算负担,故特征子集的筛选是数据处理中不可或缺的一环.针对特征选择的数据量大... 在大数据时代,数据多具有规模大、类别多、维度高和样本小等特点,使其特征空间中存在大量冗余和不相关的信息.这些冗余及不相关信息会影响模型的性能,增加计算负担,故特征子集的筛选是数据处理中不可或缺的一环.针对特征选择的数据量大、分类准确率低的问题,提出一种基于粗糙集和改进二进制布谷鸟搜索算法的高维数据特征选择模型.首先,为了加强布谷鸟算法的寻优能力,融合差分进化中变异交叉选择的思想;其次,利用新的鸟巢更新机制寻找优质特征,提升特征选择效果;最后,结合粗糙集构建合适的适应度函数进行评判.为了验证算法的性能,在UCI数据集上选取三种不同分类器进行实验,并利用Friedman检验与Nemenyi后续检验对实验数据进行评估.实验结果表明,提出算法的平均分类准确率达到88.7%,和其他算法相比,在特征选择方面更有优势. 展开更多
关键词 特征选择 粗糙 二进制布谷鸟搜索算法 差分进化 uci数据集
下载PDF
面向多视角数据的极大熵聚类算法 被引量:3
6
作者 张丹丹 邓赵红 王士同 《计算机科学与探索》 CSCD 北大核心 2016年第4期554-564,共11页
当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算... 当前,极大熵聚类(maximum entropy clustering,MEC)在面对多视角聚类任务时,是将多视角样本合并成为一个整体样本再进行处理,然而这样会破坏各视角的独立性特征,进而影响最终的划分结果。针对该问题,首先提出多视角协同划分极大熵聚类算法(multi-view collaborative partition MEC,Co MEC),该算法加入一个协调各视角空间划分的约束项,使得每一视角在单独聚类过程中考虑到其他视角的影响;然后通过区分每个视角的重要性将Co MEC算法扩展为视角加权版本,即视角加权协同划分极大熵聚类算法(view weighted collaborative partition MEC,W-Co MEC);最后利用几何均值的集成策略得到全局性的划分结果。在人工数据集以及UCI数据集上的实验结果均显示所提算法较之已有的聚类技术在应对多视角聚类任务时具有更好的聚类性能。 展开更多
关键词 多视角聚类 划分 权值 成策略 uci数据集
下载PDF
基于自适应阈值的改进孤立森林算法研究与验证
7
作者 魏斐斐 《电脑知识与技术》 2024年第10期20-22,共3页
为改善孤立森林算法建立二叉树时随机选择属性进行数据分割,构建孤立森林时可能出现一些性能较差的冗余二叉树,导致模型精度不高的问题,应用一种区间套搜索算法对初始构建的孤立森林搜索森林划分阈值,去除性能较差的孤立二叉树,构建性... 为改善孤立森林算法建立二叉树时随机选择属性进行数据分割,构建孤立森林时可能出现一些性能较差的冗余二叉树,导致模型精度不高的问题,应用一种区间套搜索算法对初始构建的孤立森林搜索森林划分阈值,去除性能较差的孤立二叉树,构建性能更优的孤立森林,提出一种自适应阈值的改进孤立森林算法(Adaptive-iForest)。选取UCI经典数据集中Breastw、Ionosphere、Satellite、Shuttle、Pendigits 5个数据集进行实证分析,对比iForest、LOF两个算法,AdaptiveiForest算法的精度与AUC值均有不同程度提升。 展开更多
关键词 异常数据检测 改进孤立森林算法 区间套搜索算法 自适应阈值 uci数据集
下载PDF
一种两层结构集成的协同分类算法
8
作者 刘宁 《微型电脑应用》 2015年第5期33-35,共3页
为了提高数据分类性能,提出一种双层分类器集成的协同分类算法CCTL。算法由训练算法和测试算法两部分组成。算法采用双层结构集成,使用多条件进行决策判断。第一层中采用三分类器协同投票一致策略实现对未知样本进行分类,第二层中采用... 为了提高数据分类性能,提出一种双层分类器集成的协同分类算法CCTL。算法由训练算法和测试算法两部分组成。算法采用双层结构集成,使用多条件进行决策判断。第一层中采用三分类器协同投票一致策略实现对未知样本进行分类,第二层中采用基于正确分类率的分类器加权投票决策实现数据分类,提高分类率高的分类器的权值,减小分类率低的分类器的权值。最后,使用UCI数据集进行实验,结果表明CCTL较好地提高了分类率。 展开更多
关键词 协同学习 分类 成学习 机器学习 uci数据集
下载PDF
基于距离度量学习的集成谱聚类 被引量:3
9
作者 牛科 张小琴 贾郭军 《计算机工程》 CAS CSCD 北大核心 2015年第1期207-210,244,共5页
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息... 无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。 展开更多
关键词 数据挖掘 边信息 相似度矩阵 距离度量学习 谱聚类 uci数据集
下载PDF
一种基于竞争型群体优化的数据聚类方法 被引量:3
10
作者 秦映波 曹步清 邓春晖 《计算机与现代化》 2019年第1期75-79,100,共6页
数据聚类在智能信息处理中具有非常重要的作用。传统的数据聚类方法,如K-means算法,存在对初始聚类中心敏感等问题。随着智能优化算法的发展,人们用智能优化算法进行数据聚类取得了一定的效果,但存在容易陷入局部最优等问题。为此,本文... 数据聚类在智能信息处理中具有非常重要的作用。传统的数据聚类方法,如K-means算法,存在对初始聚类中心敏感等问题。随着智能优化算法的发展,人们用智能优化算法进行数据聚类取得了一定的效果,但存在容易陷入局部最优等问题。为此,本文将在高维优化问题中取得良好效果的竞争型群体优化算法中引入数据聚类,利用竞争型群体优化算法强大的全局探索能力搜索聚类中心进行数据聚类,在UCI的5个数据集上的实验结果表明竞争型群体优化算法比遗传算法、粒子群算法不仅能得到更好的聚类效果,而且收敛性能更好。 展开更多
关键词 聚类 竞争型群体优化 uci数据集
下载PDF
微博演化网络的负信息分类方法 被引量:13
11
作者 赵一 何克清 +1 位作者 李昭 黄贻望 《计算机科学与探索》 CSCD 北大核心 2017年第1期91-98,共8页
针对Sina微博博文的转发关系,建立起用户转发博文之间的演化网络,从而利用SMO SVM(sequential minimal optimization support vector machine)分类算法对博文进行分类,筛选出恶意博文、垃圾广告、垃圾营销信息,使用户能够精确地屏蔽不... 针对Sina微博博文的转发关系,建立起用户转发博文之间的演化网络,从而利用SMO SVM(sequential minimal optimization support vector machine)分类算法对博文进行分类,筛选出恶意博文、垃圾广告、垃圾营销信息,使用户能够精确地屏蔽不想要的博文和博主。第一步基于微博转发关系的演化网络和SVM分类算法对整个Sina微博进行分类;第二步利用复杂网络等技术对经常发送恶意广告的博主进行标注,从而在网络中对他们进行屏蔽;最后找出垃圾信息的来源以及分辨出博主是不是恶意转发者,在宏观上能更好地遏制垃圾信息的传播。与用户从UCI数据集中实际反馈情况进行比较,实验结果表明,机器学习分类的实验结果吻合度达到89%。 展开更多
关键词 序列最小优化(SMO) 支持向量机(SVM) 演化网络 uci数据集 负信息
下载PDF
一种改进ID3型决策树挖掘算法 被引量:10
12
作者 潘大胜 屈迟文 《华侨大学学报(自然科学版)》 CAS 北大核心 2016年第1期71-73,共3页
分析经典ID3型决策树挖掘算法中存在的问题,对其熵值计算过程进行改进,构建一种改进的ID3型决策树挖掘算法.重新设计决策树构建中的熵值计算过程,以获得具有全局最优的挖掘结果,并针对UCI数据集中的6类数据集展开挖掘实验.结果表明:改... 分析经典ID3型决策树挖掘算法中存在的问题,对其熵值计算过程进行改进,构建一种改进的ID3型决策树挖掘算法.重新设计决策树构建中的熵值计算过程,以获得具有全局最优的挖掘结果,并针对UCI数据集中的6类数据集展开挖掘实验.结果表明:改进后的挖掘算法在决策树构建的简洁程度和挖掘精度上,都明显优于ID3型决策树挖掘算法. 展开更多
关键词 数据挖掘 ID3型决策树 熵值计算 uci数据集
下载PDF
基于离群点检测的K-means算法 被引量:3
13
作者 冷泳林 张清辰 +1 位作者 赵亮 鲁富宇 《渤海大学学报(自然科学版)》 CAS 2014年第1期34-38,48,共6页
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子... K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性. 展开更多
关键词 聚类 K—means算法 离群点 uci数据集
下载PDF
基于差分改进的仿射传播聚类算法 被引量:2
14
作者 赵小强 谢亚萍 《控制工程》 CSCD 北大核心 2018年第12期2115-2119,共5页
由于仿射传播(AP)聚类算法中偏向参数对聚类精度有着直接的影响,但其偏向参数都是经验取值导致不能得到最优的聚类结果,针对这一问题提出了基于差分改进的仿射传播聚类算法(DE-AP),该算法首先进行AP聚类分析,其偏向参数取经验值;然后根... 由于仿射传播(AP)聚类算法中偏向参数对聚类精度有着直接的影响,但其偏向参数都是经验取值导致不能得到最优的聚类结果,针对这一问题提出了基于差分改进的仿射传播聚类算法(DE-AP),该算法首先进行AP聚类分析,其偏向参数取经验值;然后根据得到的聚类结果判断偏向参数是否最优,如果不是则把偏向参数作为差分改进算法的输入群体;最后使用差分算法的变异、杂交和选择操作对参数进行智能调整,选择适应值最高的个体作为偏向参数,返回再次聚类。采用经典数据集验证,实验结果从类数、正确率和FMI三方面表明DE-AP算法能够有效地解决偏向参数对聚类结果的影响,从而提高聚类精度。 展开更多
关键词 聚类算法 仿射传播算法 差分进化算法 uci数据集 偏向参数
下载PDF
基于局部和全局信息的改进聚类算法 被引量:3
15
作者 许小龙 王士同 梅向东 《计算机工程》 CAS CSCD 北大核心 2015年第6期165-171,共7页
传统K-means算法在随机选取初始聚类中心时,容易导致结果不稳定,谱聚类算法直接在相似矩阵上进行分割,对结果的准确性影响较大,而局部和全局正则化聚类算法未考虑数据空间分布对结果的影响。为此,引入离散度矩阵对局部和全局正则化聚类... 传统K-means算法在随机选取初始聚类中心时,容易导致结果不稳定,谱聚类算法直接在相似矩阵上进行分割,对结果的准确性影响较大,而局部和全局正则化聚类算法未考虑数据空间分布对结果的影响。为此,引入离散度矩阵对局部和全局正则化聚类算法进行改进。改进算法考虑数据的分布信息,通过在局部信息目标函数中引入离散度矩阵,结合全局信息的目标函数,将目标函数最小化问题转换为分解稀疏矩阵特征的问题。在UCI机器学习数据集和公共数据挖掘数据集上的实验结果表明,与K-means及标准谱聚类算法相比,该算法的预测精度更高。 展开更多
关键词 K-MEANS算法 谱聚类 离散度矩阵 特征分解 uci数据集
下载PDF
不同的距离测量方法对人工免疫识别系统的性能影响 被引量:1
16
作者 邓泽林 谭冠政 +1 位作者 范必双 叶吉祥 《计算机应用研究》 CSCD 北大核心 2011年第6期2043-2045,共3页
为了分析不同的距离测量方法对AIRS的性能影响,采用三种距离测量方法实现AIRS,这三种方法分别是Euclidean距离、Manhattan距离和RBF核空间距离,并将三种用不同距离测量方法实现的AIRS算法应用于Iris、Heart和W ine数据集的分类测试。所... 为了分析不同的距离测量方法对AIRS的性能影响,采用三种距离测量方法实现AIRS,这三种方法分别是Euclidean距离、Manhattan距离和RBF核空间距离,并将三种用不同距离测量方法实现的AIRS算法应用于Iris、Heart和W ine数据集的分类测试。所获得的三组数据集分类的准确率和抗体规模进行了相互比较,结果表明采用Manhattan距离AIRS算法获得了对Iris和Heart的最高分类准确率,而采用核空间距离算法获得了对W ine的最高分类准确率。从抗体群体规模来看,采用核空间距离则能获得最小的抗体群体。从性能比较可知,不同的距离测量方法对AIRS算法的分类性能有较大的影响。 展开更多
关键词 人工免疫识别系统 距离测量方法 分类性能 uci数据集
下载PDF
多核学习中基于复合梯度映射的学习算法研究 被引量:1
17
作者 龙文光 刘益和 《计算机应用研究》 CSCD 北大核心 2015年第4期1019-1023,共5页
现有的多核学习算法大多假设训练样本分类完全正确,将其应用到受扰分类样本上时,由于分类存在差错,因此往往只能实现次优性能。为了解决这一问题,首先将受扰分类多核学习问题建模为随机规划问题,并得到一种极小极大表达式;然后提出基于... 现有的多核学习算法大多假设训练样本分类完全正确,将其应用到受扰分类样本上时,由于分类存在差错,因此往往只能实现次优性能。为了解决这一问题,首先将受扰分类多核学习问题建模为随机规划问题,并得到一种极小极大表达式;然后提出基于复合梯度映射的一阶学习算法对问题进行求解。理论分析表明,该算法的收敛速度为O(1/T),大大快于传统算法的收敛速度O(1槡/T)。最后,基于五个UCI数据集的实验结果也验证了本文观点和优化算法的有效性。 展开更多
关键词 多核学习 训练样本 随机规划 复合梯度映射 收敛速度 uci数据集
下载PDF
一种新的基于属性频率的属性约简算法
18
作者 龚安 牛秋丽 +1 位作者 高博 刘华山 《微计算机应用》 2007年第11期1138-1141,共4页
针对目前粗糙集属性约简速度比较慢、不能得到属性约简集的问题,提出了一种新的属性约简算法。通过理论分析、具体的实例和UCI数据集验证,该算法可以确保得到决策表的一个约简,并能减少计算量,提高计算速度。同时算法中引入了强等价集,... 针对目前粗糙集属性约简速度比较慢、不能得到属性约简集的问题,提出了一种新的属性约简算法。通过理论分析、具体的实例和UCI数据集验证,该算法可以确保得到决策表的一个约简,并能减少计算量,提高计算速度。同时算法中引入了强等价集,很好地解决了属性加权频率值相同的问题。 展开更多
关键词 属性约简 属性频率 强等价 uci数据集
下载PDF
基于模糊时间序列的计算机信息粒构建研究
19
作者 贺适 《自动化技术与应用》 2021年第2期48-50,共3页
计算机信息粒通常是使用概率性方法以判别式学习的方式进行的,当分类任务的性质是识别特定类别的模式时,如在情绪检测的情况下,可以同时从同一个人识别出多种情绪,这通常表明不同的情绪可能涉及特定的关系而不是相互排斥。本文基于模式... 计算机信息粒通常是使用概率性方法以判别式学习的方式进行的,当分类任务的性质是识别特定类别的模式时,如在情绪检测的情况下,可以同时从同一个人识别出多种情绪,这通常表明不同的情绪可能涉及特定的关系而不是相互排斥。本文基于模式时间序列用来识别密集型现实数据实例的分类。并以生命科学的UCI数据集作为实验对象,通过本文提出的方法与常用的概率方法进行比较,结果表明,该方法不仅可以作为概率方法的替代方法,而且还可以捕获概率方法无法实现的更多模式。 展开更多
关键词 计算机信息粒 模式序列 uci数据集 分类任务
下载PDF
一种优化初始聚类中心的k-means算法 被引量:2
20
作者 张明微 吴海涛 《上海师范大学学报(自然科学版)》 2016年第5期599-603,共5页
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始... 随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高. 展开更多
关键词 初始聚类中心 K-MEANS算法 孤立点排除法 聚簇 uci数据集
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部