期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
SMOTE数据预处理算法在砂型铸造复杂铸件缺陷预测中的应用
1
作者 潘徐政 刘迎辉 +5 位作者 李文 计效园 殷亚军 吴来发 解明国 周建新 《铸造》 CAS 2024年第10期1473-1479,共7页
针对实际生产过程采集的复杂转向桥铸件工艺数据中冷隔、气孔、砂眼、缩孔等缺陷类别的数据量严重不平衡、复杂铸件缺陷预测模型准确率不高的问题,结合砂型铸造实际工况,引入了SMOTE(Synthetic Minority Oversampling Technique)数据预... 针对实际生产过程采集的复杂转向桥铸件工艺数据中冷隔、气孔、砂眼、缩孔等缺陷类别的数据量严重不平衡、复杂铸件缺陷预测模型准确率不高的问题,结合砂型铸造实际工况,引入了SMOTE(Synthetic Minority Oversampling Technique)数据预处理算法,探究其在砂型铸造复杂铸件缺陷预测中的应用。根据采集到的复杂铸件不平衡数据集的特点,基于SMOTE数据预处理算法,科学扩充了不平衡数据集,创建了可用于训练复杂铸件缺陷预测模型的平衡数据集,数据预处理前后的模型预测准确率从86.50%提高至97.91%。 展开更多
关键词 转向桥铸件 砂型铸造 不平衡数据 数据预处理 SMOTE算法 缺陷预测
下载PDF
血红蛋白定量分析的数据集划分及预处理方法研究 被引量:3
2
作者 张朱珊莹 蒙泳吉 +3 位作者 曹汇敏 张莉 郑冬云 谢勤岚 《中南民族大学学报(自然科学版)》 CAS 北大核心 2022年第4期454-458,共5页
采用近红外光谱法对血红蛋白进行定量分析时,数据集划分与预处理方法直接影响定量模型的预测精度.以120份不同浓度血红蛋白仿体溶液的光谱数据为研究对象,研究随机法、间隔划分法、KS法、Duplex法、SPXY法5种数据集划分方法对PCR、PLS... 采用近红外光谱法对血红蛋白进行定量分析时,数据集划分与预处理方法直接影响定量模型的预测精度.以120份不同浓度血红蛋白仿体溶液的光谱数据为研究对象,研究随机法、间隔划分法、KS法、Duplex法、SPXY法5种数据集划分方法对PCR、PLS定量分析模型预测精度的影响;研究27种预处理方法对PCR、PLS定量分析模型预测精度的影响,预处理组合时考虑组合顺序的影响因素.实验结果表明:PLS模型最优的数据集划分方法是SPXY法;PCR模型最优的数据集划分方法是间隔划分法.27种预处理方法,PLS模型和PCR模型优选出的最佳预处理方式均为SG+DOSC.此时,PLS模型的RMSEP值为3.5532;PCR模型的RMSEP值为14.9032.研究结果为此类光谱数据的处理提供了一种思路和方法. 展开更多
关键词 数据划分 预处理方法 近红外光谱 定量模型
下载PDF
基于粗集理论预处理数据的神经网络交通事件自动检测算法 被引量:1
3
作者 温娟 贺国光 《交通运输系统工程与信息》 EI CSCD 2004年第4期54-59,共6页
提出了一种基于粗集理论预处理数据的神经网络交通事件自动检测算法.首先简单介绍了数据挖掘技术中的粗集理论,然后说明了算法的原理、计算步骤以及所用的神经网络模型,最后为检验算法的有效性,对MATLAB编制的仿真程序的生成试验数据做... 提出了一种基于粗集理论预处理数据的神经网络交通事件自动检测算法.首先简单介绍了数据挖掘技术中的粗集理论,然后说明了算法的原理、计算步骤以及所用的神经网络模型,最后为检验算法的有效性,对MATLAB编制的仿真程序的生成试验数据做了较充分的仿真试验.试验测试结果表明了此方法的有效性. 展开更多
关键词 理论 预处理数据 神经网络 交通事件 自动检测算法
下载PDF
集成数据预处理技术及其在机器学习算法中的应用 被引量:2
4
作者 郭旗 《科技与创新》 2023年第23期163-165,共3页
随着计算机技术的飞速发展,各个领域的数据量呈指数上升,如何处理大体量的数据以保证数据的质量和可用性是机器学习建模过程中不可缺少的一部分。作为建模的首要部分,数据预处理技术的精度直接影响算法的性能。在已有研究的基础上提出... 随着计算机技术的飞速发展,各个领域的数据量呈指数上升,如何处理大体量的数据以保证数据的质量和可用性是机器学习建模过程中不可缺少的一部分。作为建模的首要部分,数据预处理技术的精度直接影响算法的性能。在已有研究的基础上提出了一种新颖的数据预处理方法,将数据预处理过程的不同方面集成到一起,构造出基于集成的数据预处理方法,最后在UCI数据库中(UCI数据库是加州大学欧文分校University of California Irvine提出的用于机器学习的数据库)3个经典数据集的基础上进行实证研究,并使用决策树、支持向量机、神经网络这3种机器学习算法来验证集成数据预处理技术的可行性和提高预测性能的有效性。 展开更多
关键词 数据预处理 成方法 机器学习 UCI数据
下载PDF
粗集理论及其在数据预处理过程中的应用
5
作者 李欣然 《数据》 2022年第10期51-53,共3页
智能信息处理是现代技术的应用范围,还在实践探究中取得了优异成绩。随着计算机网络技术的飞速发展,各领域的数据信息量急剧上升,传统意义上的知识获取技术无法处理巨型数据仓库,数据信息系统中的不明确性越发明显,此时如何从大批量无... 智能信息处理是现代技术的应用范围,还在实践探究中取得了优异成绩。随着计算机网络技术的飞速发展,各领域的数据信息量急剧上升,传统意义上的知识获取技术无法处理巨型数据仓库,数据信息系统中的不明确性越发明显,此时如何从大批量无规则的数据中挖掘有用知识是目前智能信息处理技术研发面临的主要挑战,并由此产生了人工智能研究的全新领域,也就是数据库知识发现。本文在了解粗集理论相关知识的基础上,根据数据挖掘和知识发现的发展背景,深层探索初级理论在数据预处理过程中的应用。 展开更多
关键词 理论 数据预处理 数据 知识发现
下载PDF
基于属性相关分析与聚类的铁路列车时刻表非均衡数据集预处理方法
6
作者 孔德越 周姗琪 +2 位作者 朱建生 闫力斌 吴颖 《铁路计算机应用》 2021年第10期1-5,共5页
在铁路列车运行图调整日趋频繁的背景下,列车时刻表数据集具有数据量大、属性多、不同车次时刻表记录数量差异较大、相同车次时刻表记录属性值相似的特点,列车时刻表数据分析和挖掘面临着数据集不均衡问题。为此,提出基于属性相关分析... 在铁路列车运行图调整日趋频繁的背景下,列车时刻表数据集具有数据量大、属性多、不同车次时刻表记录数量差异较大、相同车次时刻表记录属性值相似的特点,列车时刻表数据分析和挖掘面临着数据集不均衡问题。为此,提出基于属性相关分析与聚类的铁路列车时刻表非均衡数据集预处理方法,依据列车时刻表属性与列车运营指标(客座率)的相关分析,可有效合并蕴含冗余信息的相似数据,降低数据集中此类相似数据的占比,可削弱非均衡数据集对后续数据分析的不利影响,并能保留数据所蕴含的主要信息,减少过多相似数据对数据分析模型应用效果的不利影响,提高模型的预测准确度。 展开更多
关键词 列车时刻表 非均衡数据 数据预处理 相关分析 聚类处理
下载PDF
Marmousi声波数据集的预处理和波动方程炮点模拟
7
作者 津强(摘译) 《中外科技情报》 2006年第12期26-32,共7页
在“Kirchhoff”(即加权绕射叠加)叠前偏移中,可以把整个绕射面范围内的求和看作是由偏移共炮点、共接收点或共炮检距道集估算的反射系数。平均反射系数的最佳加权应该以Bleistein等人(2001年)的β共炮检距加权为基础。通过比较,... 在“Kirchhoff”(即加权绕射叠加)叠前偏移中,可以把整个绕射面范围内的求和看作是由偏移共炮点、共接收点或共炮检距道集估算的反射系数。平均反射系数的最佳加权应该以Bleistein等人(2001年)的β共炮检距加权为基础。通过比较,β共炮点和接收点加权虽然对单个道集进行了校正, 展开更多
关键词 共炮点 波动方程 预处理 数据 共炮检距道 模拟 声波 叠前偏移 反射系数 接收点
下载PDF
大规模数据分类的支持向量预处理方法 被引量:2
8
作者 徐健 陈光喜 《计算机应用》 CSCD 北大核心 2007年第B12期257-259,共3页
对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩阵,剔除重复反映分类特性的样本点,达到在保持分类精确度的同时提高数据集训练速度,减少训练时间的目的。... 对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩阵,剔除重复反映分类特性的样本点,达到在保持分类精确度的同时提高数据集训练速度,减少训练时间的目的。通过对随机数据和UCI标准数据库的数值实验验证了算法有效性,且相应调整计算阈值时可以达到提高分类精度的效果。 展开更多
关键词 支持向量机 预处理方法 大规模数据 运算速度
下载PDF
浅谈数据预处理理论 被引量:3
9
作者 陈亚楠 卓佳 廖廷悟 《中国证券期货》 2010年第9X期153-153,共1页
没有高质量的数据就没有高质量的挖掘,在数据挖掘过程中数据预处理至关重要。初步采集来的数据大体上都存在不完整,不一致等问题,无法直接进行数据挖掘,或挖掘结果差强人意。因此,数据预处理技术至关重要。根据统计,在一个完整的数据挖... 没有高质量的数据就没有高质量的挖掘,在数据挖掘过程中数据预处理至关重要。初步采集来的数据大体上都存在不完整,不一致等问题,无法直接进行数据挖掘,或挖掘结果差强人意。因此,数据预处理技术至关重要。根据统计,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右。数据预处理主要包括数据清理、集成和归约。数据清理是处理数据中的遗漏和清洗脏数据,数据集成将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据存储, 展开更多
关键词 数据预处理 数据清理 数据挖掘过程 挖掘结果 数据 语义模糊性 合并处理 模式 属性子 归约
下载PDF
一类神经网络数据预处理的二种方法的比较 被引量:3
10
作者 姚红星 黄正良 刘知贵 《微机发展》 2003年第6期77-79,共3页
介绍了主元分析法和粗集理论对原始数据进行压缩处理的基本算法。对一组边坡工程数据,分别利用主元分析法和粗集理论对数据预处理后,送给BP神经网络对边坡状态进行逼近。对检验样本进行仿真比较,说明了粗集理论在此种分类神经网络数据... 介绍了主元分析法和粗集理论对原始数据进行压缩处理的基本算法。对一组边坡工程数据,分别利用主元分析法和粗集理论对数据预处理后,送给BP神经网络对边坡状态进行逼近。对检验样本进行仿真比较,说明了粗集理论在此种分类神经网络数据预处理上优于主元分析法。 展开更多
关键词 数据预处理 神经网络 人工智能 理论 主元分析法
下载PDF
数据挖掘技术在统计预处理中的应用 被引量:1
11
作者 谭耀文 谭义红 李学勇 《湘潭师范学院学报(自然科学版)》 2005年第2期76-78,共3页
目前统计分析面临的数据大多不再是预先设定的样本数据,而是杂乱、不规范的大规模的海量数据,所以统计分析之前进行数据预处理是非常必要的。采用数据挖掘技术,对存在空缺值、噪声数据等不规范的数据集进行清理,对海量数据进行维规约和... 目前统计分析面临的数据大多不再是预先设定的样本数据,而是杂乱、不规范的大规模的海量数据,所以统计分析之前进行数据预处理是非常必要的。采用数据挖掘技术,对存在空缺值、噪声数据等不规范的数据集进行清理,对海量数据进行维规约和自动产生概念分层处理,以缩小数据集的规模。经过预处理的数据集能更好地适应原有统计方法,并提高了统计质量。 展开更多
关键词 数据挖掘技术 应用 统计分析 海量数据 数据预处理 数据 样本数据 噪声数据 分层处理 自动产生 统计方法 统计质量 规模 规约
下载PDF
智能机器狗巡线数据预处理方法探析
12
作者 刘振 盛建强 《深圳信息职业技术学院学报》 2023年第6期1-8,共8页
智能机器狗作为人工智能端侧设备在生产生活中有广泛的应用场景。基于深度学习模型的智能巡线是机器狗的重要功能,训练巡线模型需要准备丰富的数据集,同时要求结合实际场景对数据集进行合理的预处理。首先,结合机器狗单向巡线功能应用... 智能机器狗作为人工智能端侧设备在生产生活中有广泛的应用场景。基于深度学习模型的智能巡线是机器狗的重要功能,训练巡线模型需要准备丰富的数据集,同时要求结合实际场景对数据集进行合理的预处理。首先,结合机器狗单向巡线功能应用场景指出了巡线图像数据集预处理时应注意的旋转、翻转问题,避免机器狗偏离航线问题;其次,结合图像设备采集数据质量较差的情况,指出图像增强的必要处理方法集,以及在硬件设备性能限制的情况下推荐图像增强方法;最后,根据ResNet50模型训练部署结果,对巡线图像数据集预处理存在的问题和改进空间作了分析。 展开更多
关键词 图像预处理 数据 深度学习 模型训练
下载PDF
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
13
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据 预处理 混合重取样 SMOTE 聚类
下载PDF
物化视图选择的预处理算法 被引量:8
14
作者 张柏礼 孙志挥 孙翔 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1645-1651,共7页
现有的静态物化视图选择算法的视图搜索代价较大 ,而导致算法的时间复杂度偏高 ,不能用于对物化视图进行在线动态调整 提出了一种物化视图选择的预处理算法———PMVS ,其中包括用户查询集动态调整算法QSDM、候选视图格构造算法CVLC和... 现有的静态物化视图选择算法的视图搜索代价较大 ,而导致算法的时间复杂度偏高 ,不能用于对物化视图进行在线动态调整 提出了一种物化视图选择的预处理算法———PMVS ,其中包括用户查询集动态调整算法QSDM、候选视图格构造算法CVLC和候选视图筛选算法CVF ,该算法可用做预处理过程对视图数量进行在线压缩 ,从而降低了静态算法的视图空间搜索代价和时间复杂度 展开更多
关键词 物化视图 预处理算法 多维数据 数据仓库
下载PDF
移动同步复制的冲突预处理与检测消解策略 被引量:2
15
作者 金敏 龚春红 +1 位作者 周翔 戴瑜兴 《湖南师范大学自然科学学报》 CAS 北大核心 2007年第4期46-53,共8页
针对移动计算资源有限性、移动通信的频繁断接性和通信带宽的有限性、不同移动数据库产品之间的异构性,鉴于目前移动同步复制技术存在的缺陷,提出一种新的事务级同步复制模型,重点分析了该模型的冲突处理策略,并给出了具体的实现算法.... 针对移动计算资源有限性、移动通信的频繁断接性和通信带宽的有限性、不同移动数据库产品之间的异构性,鉴于目前移动同步复制技术存在的缺陷,提出一种新的事务级同步复制模型,重点分析了该模型的冲突处理策略,并给出了具体的实现算法.该模型在冲突检测和消解之前加入冲突预处理机制,通过引入用户关心数据、事务相关集等概念,有效节省了移动客户端的存贮资源和移动通信带宽,减少了服务器的工作负荷和出错概率,降低了冲突检测和消解算法的复杂度.采用基于规则的冲突检测和消解策略,简化了冲突处理过程,提高了同步效率.此外,基于SyncML同步协议的实现算法具有对多种异构主流数据库产品良好的通用性和适应性. 展开更多
关键词 事务同步复制 冲突预处理 用户关心数据 事务相关 规则 SYNCML
下载PDF
不平衡数据集中的组合分类算法 被引量:4
16
作者 吴广潮 陈奇刚 《计算机工程与设计》 CSCD 北大核心 2007年第23期5687-5689,5761,共4页
为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子... 为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决。数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机、过抽样方法和欠抽样方法。 展开更多
关键词 不平衡数据 最小二乘支持向量机 组合分类器 数据预处理 不平衡比
下载PDF
上市公司财务危机预警指标的预处理方法体系建立与应用 被引量:2
17
作者 王璐 王慧敏 《商业研究》 北大核心 2007年第8期120-124,共5页
预警指标选择的质量,直接影响预警结果的准确性。采用层次化处理的定性手段,与粗集理论中知识约简方法的定量手段有机结合,建立了预警指标的预处理方法体系。通过采用ANN预警模型进行实证,表明该预处理方法体系是有效的。
关键词 财务危机 预处理 财务数据结构 预警
下载PDF
用于迁移学习的飞机遥感图像数据集的建立 被引量:3
18
作者 史通 王洁 +2 位作者 罗畅 蔡启航 王世强 《火力与指挥控制》 CSCD 北大核心 2018年第12期78-80,84,共4页
遥感图像目标识别是空天遥感应用领域中的一个重要研究方向,在军用、民用方面都有着深远的理论意义和巨大的应用价值。以遥感图像飞机目标的细分类研究为目的,以民用客机、直升机、初级教练机、战斗机、运输机和轰炸机这6类飞机为代表,... 遥感图像目标识别是空天遥感应用领域中的一个重要研究方向,在军用、民用方面都有着深远的理论意义和巨大的应用价值。以遥感图像飞机目标的细分类研究为目的,以民用客机、直升机、初级教练机、战斗机、运输机和轰炸机这6类飞机为代表,注重于建立起用于迁移学习的各类飞机的遥感图像数据集,并介绍了图像采集、图像预处理的相关操作。该数据集的建立,为日后遥感图像飞机目标识别系统的搭建打下坚实的基础。 展开更多
关键词 遥感图像 飞机识别 细分类 迁移学习 数据 图像预处理
下载PDF
玉米籽粒蛋白光谱预处理方法比较研究 被引量:4
19
作者 孙晶京 杨武德 +1 位作者 冯美臣 肖璐洁 《农业技术与装备》 2020年第7期10-12,共3页
近红外光谱数据的预处理是特征提取和分析模型建立的基础,在获取真实光谱数据和获得可靠结果方面起着重要作用。文章基于玉米籽粒光谱数据,比较了S-G平滑、S-G一阶和二阶导数、MSC、SNV和去趋势法等不同预处理方法的特点,探讨了各预处... 近红外光谱数据的预处理是特征提取和分析模型建立的基础,在获取真实光谱数据和获得可靠结果方面起着重要作用。文章基于玉米籽粒光谱数据,比较了S-G平滑、S-G一阶和二阶导数、MSC、SNV和去趋势法等不同预处理方法的特点,探讨了各预处理技术对数据集划分的影响。结果表明:对样本数据集的划分应在预处理之后进行,不同预处理方法的最佳数据集划分差异较大。因此,在光谱建模时,应合理选择光谱预处理方法及数据集划分比例。 展开更多
关键词 预处理 近红外光谱 玉米籽粒蛋白 数据划分
下载PDF
中巴经济走廊(喀什至伊斯兰堡段)高分正射影像数据集 被引量:2
20
作者 韩立钦 张耀南 +1 位作者 田德宇 康建芳 《中国科学数据(中英文网络版)》 CSCD 2019年第3期118-128,共11页
中巴经济走廊是“一带一路”倡议大局的重要组成部分,对“一带一路”倡议实施发挥着重大的示范和推动作用。本数据集由高分一号、高分二号国产卫星影像制作而成,空间范围为23°54′N–39°12′N、71°24′E–76°48′E... 中巴经济走廊是“一带一路”倡议大局的重要组成部分,对“一带一路”倡议实施发挥着重大的示范和推动作用。本数据集由高分一号、高分二号国产卫星影像制作而成,空间范围为23°54′N–39°12′N、71°24′E–76°48′E,中巴公路两侧约60 km,中国喀什地区至巴基斯坦伊斯兰堡段,时间范围为2013–2017年,全色与多光谱2 m融合影像,TIFF格式。数据集正射校正精度最大误差X方向为0.35个像元,Y方向为0.4个像元;均方根误差X方向为0.42个像元,Y方向为0.38个像元。从图像融合效果看,高分影像采用PanSharpening方法融合效果较好。本数据集可以丰富本区域空间基础数据资源,能够应用于中巴经济走廊基础设施建设规划、自然灾害预警与生态安全评价等领域。 展开更多
关键词 中巴经济走廊 正射影像数据 数据预处理 正射矫正 数据融合
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部