期刊文献+
共找到248篇文章
< 1 2 13 >
每页显示 20 50 100
一种应用于Pix2Pix的水下鱼类图像增强训练集构建新方法
1
作者 李沅衡 林茂兹 +1 位作者 丁可武 陈文辉 《福建技术师范学院学报》 2024年第2期10-16,共7页
提出一种量化对比不同参数下带色彩恢复的多尺度网膜增强(MSRCR)算法的图像增强效果,选取最优组成训练集的方法,并基于该训练集训练Pix2Pix模型.实验结果表明,利用该方法所建立的训练集,可以获得用于水下鱼类图像增强的优质Pix2Pix模型... 提出一种量化对比不同参数下带色彩恢复的多尺度网膜增强(MSRCR)算法的图像增强效果,选取最优组成训练集的方法,并基于该训练集训练Pix2Pix模型.实验结果表明,利用该方法所建立的训练集,可以获得用于水下鱼类图像增强的优质Pix2Pix模型参数,且此方法还可以扩展应用于其他对抗神经网络(GAN)模型训练中. 展开更多
关键词 水下鱼类图像增强 训练集 MSRCR Pix2Pix
下载PDF
基于相似性度量的软件缺陷预测训练集推荐 被引量:2
2
作者 王朝 于巧 韩惠 《计算机工程与应用》 CSCD 北大核心 2023年第9期86-94,共9页
在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测... 在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。 展开更多
关键词 软件缺陷预测 训练集选择 跨项目缺陷预测 跨版本缺陷预测
下载PDF
一种白血细胞图像训练集扩充方法
3
作者 臧宇 苏洋 《中国医学物理学杂志》 CSCD 2023年第3期342-349,共8页
针对因训练集较小导致的白血细胞图像识别精度低以及传统的扩充训练集方法需要人工介入的问题,提出一种白血细胞图像训练集扩充方法,将图像旋转任意角度后,提取因旋转产生的黑色区域边缘,然后对黑色区域进行填充,并弱化边缘特征,得到扩... 针对因训练集较小导致的白血细胞图像识别精度低以及传统的扩充训练集方法需要人工介入的问题,提出一种白血细胞图像训练集扩充方法,将图像旋转任意角度后,提取因旋转产生的黑色区域边缘,然后对黑色区域进行填充,并弱化边缘特征,得到扩充训练集。实验结果表明,使用本文方法扩充训练集对ResNet50、MobileNet与ShuffleNet 3种模型进行训练后,对比原始数据集,模型的识别精度分别提高220.18%、140.84%与88.99%,且不需要人工介入。 展开更多
关键词 白血细胞识别 机器学习 训练集扩充
下载PDF
针对大规模训练集的支持向量机的学习策略 被引量:53
4
作者 李红莲 王春花 +1 位作者 袁保宗 朱占辉 《计算机学报》 EI CSCD 北大核心 2004年第5期715-719,共5页
当训练集的规模很大特别是支持向量很多时 ,支持向量机的学习过程需要占用大量的内存 ,寻优速度非常缓慢 ,这给实际应用带来了很大的麻烦 .该文提出了一种针对大规模样本集的学习策略 :首先用一个小规模的样本集训练得到一个初始的分类... 当训练集的规模很大特别是支持向量很多时 ,支持向量机的学习过程需要占用大量的内存 ,寻优速度非常缓慢 ,这给实际应用带来了很大的麻烦 .该文提出了一种针对大规模样本集的学习策略 :首先用一个小规模的样本集训练得到一个初始的分类器 ,然后用这个分类器对大规模训练集进行修剪 ,修剪后得到一个规模很小的约减集 ,再用这个约减集进行训练得到最终的分类器 .实验表明 ,采用这种学习策略不仅大幅降低了学习的代价 ,而且这样获得的分类器的分类精度完全可以与直接通过大规模样本集训练得到的分类器的分类精度相媲美 ,甚至更优 ,同时分类速度也得到大幅提高 . 展开更多
关键词 支持向量机 学习策略 大规模训练集 分类器
下载PDF
基于线索词识别和训练集扩展的中文问题分类 被引量:6
5
作者 张志昌 张宇 +1 位作者 刘挺 李生 《高技术通讯》 EI CAS CSCD 北大核心 2009年第2期111-118,共8页
针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问... 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。 展开更多
关键词 问题分类 焦点词 词义距离 训练集扩展
下载PDF
数据挖掘中平衡偏斜训练集的方法研究 被引量:3
6
作者 李雄飞 李军 +2 位作者 屈成伟 刘丽娟 孙涛 《计算机研究与发展》 EI CSCD 北大核心 2012年第2期346-353,共8页
分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同... 分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度. 展开更多
关键词 分类 偏斜训练集 平衡算法 少数类别样例
下载PDF
网络泛化能力与随机扩展训练集 被引量:6
7
作者 杨慧中 卢鹏飞 +1 位作者 张素贞 陶振麟 《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期963-966,共4页
针对神经网络的过拟合和泛化能力差的问题 ,研究了样本数据的输入输出混合概率密度函数的局部最大熵密度估计 ,提出了运用Chebyshev不等式的样本参数按类分批自校正方法 ,以此估计拉伸样本集 ,得到新的随机扩充训练集 .使估计质量更高 ... 针对神经网络的过拟合和泛化能力差的问题 ,研究了样本数据的输入输出混合概率密度函数的局部最大熵密度估计 ,提出了运用Chebyshev不等式的样本参数按类分批自校正方法 ,以此估计拉伸样本集 ,得到新的随机扩充训练集 .使估计质量更高 ,效果更好 .仿真结果证明用这种方法训练的前馈神经网络具有较好的泛化性能 . 展开更多
关键词 随机扩展训练集 前馈神经网络 泛化能力 最大局部熵密度函数 CHEBYSHEV不等式 概率密度估计
下载PDF
训练集容量对决策树分类错误率的影响研究 被引量:6
8
作者 孙微微 刘才兴 田绪红 《计算机工程与应用》 CSCD 北大核心 2005年第10期159-161,共3页
数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出... 数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系。实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳。 展开更多
关键词 可能近似正确模型PAC 训练集 错误率
下载PDF
文本分类中训练集相关数量指标的影响研究 被引量:6
9
作者 李湘东 曹环 黄莉 《计算机应用研究》 CSCD 北大核心 2014年第11期3324-3327,3332,共5页
针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数... 针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。 展开更多
关键词 训练集优化 文本分类 多因素方差分析 语料库 相关数量指标
下载PDF
微粒群算法优化化工建模训练集 被引量:6
10
作者 张运陶 高世博 《化工学报》 EI CAS CSCD 北大核心 2008年第4期964-969,共6页
提出两种均以微粒群(PSO)算法对原始训练集随机抽样优化,再结合机器学习算法建立预测模型的PSO算法优化化工建模训练集的思路。思路1首先以模型交叉验证的均方误差函数mse最小为目标优化训练集,再通过对验证集预测,从平行运行得到的多... 提出两种均以微粒群(PSO)算法对原始训练集随机抽样优化,再结合机器学习算法建立预测模型的PSO算法优化化工建模训练集的思路。思路1首先以模型交叉验证的均方误差函数mse最小为目标优化训练集,再通过对验证集预测,从平行运行得到的多个优化训练集中确定最优训练集用于建模。思路2借鉴提高BP神经网络泛化能力的初期终止(early stop)法,以对验证集预测的mse最小为目标优化训练集,再通过对测试集预测,从平行运行得到的多个优化训练集中确定最优训练集用于建模。通过仿真实验研究和对某炼油厂调和汽油生产数据的具体分析应用,表明本文思路可以较大幅度提高模型的预测准确性,在化工建模中具有推广应用价值。 展开更多
关键词 微粒群算法 优化训练集 仿真 化工建模
下载PDF
基于训练集分层的图像超分辨率重建 被引量:3
11
作者 史云静 虞涛 朱秀昌 《电视技术》 北大核心 2012年第19期18-22,63,共6页
在基于邻域嵌入的图像超分辨率重建中,提出了一种对训练集进行分层的方法,可有效解决待重建图像块在训练集中搜索时间过长问题。同时对待重建的图像区域加以分类,对于平坦区域选择一般的双立方插值的重建方法,对于含有丰富细节的区域则... 在基于邻域嵌入的图像超分辨率重建中,提出了一种对训练集进行分层的方法,可有效解决待重建图像块在训练集中搜索时间过长问题。同时对待重建的图像区域加以分类,对于平坦区域选择一般的双立方插值的重建方法,对于含有丰富细节的区域则采用邻域嵌入的重建方法。最后对重建图像进行IBP全局后处理,进一步提高图像质量。实验结果表明,利用本文方法重建的图像主观和客观质量都有较大的提高,且重建时间可以大大缩短。 展开更多
关键词 超分辨率 图像重建 邻域嵌入 训练集分层 区域分类 后处理
下载PDF
人工智能图书采访系统的学习训练集构建与维护 被引量:2
12
作者 原小玲 王红 《晋图学刊》 2020年第3期22-25,共4页
学习训练集是人工智能采访系统进行深度学习训练的依据。学习训练集数据主要包括馆藏数据、用户数据及其他相关数据。这些数据以主题词数据为核心,互相建立关联,作为人工智能采访系统的学习训练素材。学习训练集数据运行要在优先级与阈... 学习训练集是人工智能采访系统进行深度学习训练的依据。学习训练集数据主要包括馆藏数据、用户数据及其他相关数据。这些数据以主题词数据为核心,互相建立关联,作为人工智能采访系统的学习训练素材。学习训练集数据运行要在优先级与阈值设置基础上进行。学习训练集数据维护要着重于数据的长期性与持续更新,并注意其不完整性带来的局限。 展开更多
关键词 学习训练集 馆藏数据 用户数据 其他数据 数据关联
下载PDF
面向非平衡训练集分类的随机森林算法优化 被引量:13
13
作者 吴琼 李运田 郑献卫 《工业控制计算机》 2013年第7期89-90,共2页
数据挖掘是当今社会最活跃的研究方向之一,迄今为止数据挖掘技术已经广泛应用到各行各业中,然而在数据挖掘过程中往往会遇到很多非平衡训练集,采用传统的数据挖掘技术对非平衡训练集集进行处理不能得到理想的效果。主要是针对非平衡训练... 数据挖掘是当今社会最活跃的研究方向之一,迄今为止数据挖掘技术已经广泛应用到各行各业中,然而在数据挖掘过程中往往会遇到很多非平衡训练集,采用传统的数据挖掘技术对非平衡训练集集进行处理不能得到理想的效果。主要是针对非平衡训练集,对数据进行NCL(Neighborhood Cleaning Rule)技术处理并结合随机森林(Random Forest)算法进行分类,试验结果表明,改进后的随机森林算法分类效果更好。 展开更多
关键词 数据挖掘 非平衡训练集 随机森林 NCL
下载PDF
基于网络社区结构的训练集非均衡程度度量方法
14
作者 岳训 迟忠先 +2 位作者 葛平俱 莫宏伟 郝艳友 《小型微型计算机系统》 CSCD 北大核心 2007年第8期1427-1433,共7页
在机器学习和数据挖掘实际应用中,针对分类训练集的选取,通常要求训练集中每一类所包含的数据在数量上要尽可能的"均衡".本文以非均衡训练集与分类学习效率关系研究为依据,给出了"均匀度"和"内聚度"两种... 在机器学习和数据挖掘实际应用中,针对分类训练集的选取,通常要求训练集中每一类所包含的数据在数量上要尽可能的"均衡".本文以非均衡训练集与分类学习效率关系研究为依据,给出了"均匀度"和"内聚度"两种类型的训练集非均衡程度因素的概念;"均匀度"是用来描述训练集类之间(between-class)的非均衡程度,其含义是指训练集不同类之间数据数量的非均衡程度;"内聚度"是用来描述训练集类内部(within-class)的非均衡程度,指训练集中不同类在空间分布上的线性相关程度,通过训练集数据之间的相关程度,构建出训练集的网络结构,运用一种能体现训练集内聚性的网络拓扑结构的指标-网络社区结构作为度量,提出了基于网络社区模块结构的非均衡训练集度量方法,并指出了高均匀度和高内聚度是选取"优良"分类训练集的关键因素.通过对UCI标准训练集的实验,结果验证本方法作为选取训练集标准的有效性. 展开更多
关键词 训练集非均衡问题 复杂网络 网络社区结构 均匀度 内聚度
下载PDF
静态性能分析的训练集自动生成工具
15
作者 杨博 王文军 +1 位作者 陈文光 郑纬民 《小型微型计算机系统》 EI CSCD 北大核心 1999年第11期809-812,共4页
静态程序性能分析可以快速地进行性能预测以指导程序的并行化.使用训练集是静态性能分析的一个重要的方法.由于训练集的复杂性,用手工方法生成训练集是不实际的.本文详细介绍了训练集自动生成技术并给出了测试结果。
关键词 并行化系统 训练集 性能分析 并行编译
下载PDF
基于频度函数重采样的训练集构造方法
16
作者 虞华 胡卫东 +1 位作者 夏胜平 郁文贤 《计算机工程与应用》 CSCD 北大核心 2004年第18期71-73,108,共4页
训练样本集在模式识别问题中起着重要的作用,它是分类器“知识”的基本来源,直接影响分类器的训练结果和识别系统的综合性能。为了减轻冗余数据对分类器训练和系统维护所带来的负面影响,该文在采样定理的启发下,遵循理想训练样本集所须... 训练样本集在模式识别问题中起着重要的作用,它是分类器“知识”的基本来源,直接影响分类器的训练结果和识别系统的综合性能。为了减轻冗余数据对分类器训练和系统维护所带来的负面影响,该文在采样定理的启发下,遵循理想训练样本集所须满足的三个基本性质:遍历性、相容性和致密性,针对大数据量原始样本集,提出了一种基于频度统计重抽样手段构造精简训练样本集的方法。试验表明,该方法能够在保证分类器性能的前提下,有效减少冗余样本,降低计算代价和分类器复杂度。 展开更多
关键词 训练集构造 采样定理 频度函数 重采样 临界子
下载PDF
面向不均衡小样本训练集的改进Boosting算法
17
作者 程有龙 庄连生 +1 位作者 李斌 庄镇泉 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第2期146-151,共6页
传统的Boosting算法训练出的分类器常会出现过拟合和向多数类偏移.为此,提出一种基于自适应样本注入和特征置换的Boosting学习算法,通过在训练过程中加入人工合成样本,逐渐平衡训练集,并通过合成的样本对分类器学习进行扰动,使分类器选... 传统的Boosting算法训练出的分类器常会出现过拟合和向多数类偏移.为此,提出一种基于自适应样本注入和特征置换的Boosting学习算法,通过在训练过程中加入人工合成样本,逐渐平衡训练集,并通过合成的样本对分类器学习进行扰动,使分类器选择更多有效的特征,提高了分类器的泛化能力.最后,在两类和多类图片分类问题上对该算法的有效性进行了考察,实验结果表明,该算法能够在样本数很少,且正负样本数量极不均衡的情况下,有效提高booting算法的泛化能力. 展开更多
关键词 BOOSTING 小样本 非平衡训练集 特征置换 扰动 泛化能力
下载PDF
基于模糊训练集的领域相关统计语言模型
18
作者 陈浪舟 黄泰翼 nlpr.ia.ac.cn 《软件学报》 EI CSCD 北大核心 2000年第7期971-978,共8页
统计语言模型在语音识别中具有重要作用 .对于特定领域的识别系统来说 ,主题相关的语言模型效果远远优于领域无关的语言模型 .传统方法在建立领域相关的语言模型时通常会遇到两个问题 ,一个是领域相关的语料不像普通语料那样充分 ,另一... 统计语言模型在语音识别中具有重要作用 .对于特定领域的识别系统来说 ,主题相关的语言模型效果远远优于领域无关的语言模型 .传统方法在建立领域相关的语言模型时通常会遇到两个问题 ,一个是领域相关的语料不像普通语料那样充分 ,另一个是一篇特定的文章往往与好几个主题相关 ,而在模型的训练过程中 ,这种现象没有得到充分的考虑 .为解决这两个问题 ,提出了一种新的领域相关训练语料的组织方法——基于模糊训练集的组织方法 ,领域相关的语言模型就建立在模糊训练集的基础上 .同时 ,为了增强模型的预测能力 ,将自组织学习引入到模型的训练过程中 。 展开更多
关键词 语音识别 统计语言模型 自组织学习 模糊训练集
下载PDF
手写体数字的生成模式和智能训练集设计
19
作者 李天牧 李学群 《计算机应用与软件》 CSCD 1994年第2期9-14,共6页
本文从神经心理学的观点出发,用数学方法描述手写体数字的生成模式,给出了计算机模拟结果并提出一种用于神经网络学习的智能训练集的构成方法。
关键词 手写体数字 智能训练集 生成模式
下载PDF
基于凸壳的支持向量机训练集选取算法研究
20
作者 朱志平 林关成 肖令禄 《科学技术与工程》 2010年第17期4179-4181,4185,共4页
基于对支持向量机训练算法的研究与理解,针对支持向量的几何特点,结合凸壳的几何性质,对支持向量机训练算法的工作集选取进行了改进。在LIBSVM的环境下进行了对比分析。数值实验表明,改进的基于凸壳的训练数据选取算法缩短了训练时间并... 基于对支持向量机训练算法的研究与理解,针对支持向量的几何特点,结合凸壳的几何性质,对支持向量机训练算法的工作集选取进行了改进。在LIBSVM的环境下进行了对比分析。数值实验表明,改进的基于凸壳的训练数据选取算法缩短了训练时间并保持了良好的泛化能力,具有一定的参考价值。 展开更多
关键词 凸壳 支持向量机 训练集
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部