期刊文献+
共找到1,061篇文章
< 1 2 54 >
每页显示 20 50 100
电力设备多参量监测数据清洗研究现状及展望
1
作者 顾菊平 赵佳皓 +3 位作者 张新松 程天宇 周伯俊 蒋凌 《高电压技术》 EI CAS CSCD 北大核心 2024年第8期3403-3420,共18页
基于电力设备多参量监测数据,开展电力设备态势感知工作是提高设备检修效率、消除故障隐患、保障电力系统安全稳定运行的重要途径之一。然而,数据采集、传输与存储过程中受到的各类干扰导致原始监测数据中存在大量的偏差与缺失,进而影... 基于电力设备多参量监测数据,开展电力设备态势感知工作是提高设备检修效率、消除故障隐患、保障电力系统安全稳定运行的重要途径之一。然而,数据采集、传输与存储过程中受到的各类干扰导致原始监测数据中存在大量的偏差与缺失,进而影响态势感知准确性,亟须通过数据清洗提升数据质量。在综合分析电力设备多参量监测数据清洗领域文献的基础上,概述了电力设备多参量监测数据质量影响因素。对电力设备多参量监测数据清洗的通用框架进行了总结,该框架包括多参量相关性分析、异常数据检测、异常数据分类和“脏”数据修复4个环节,对各环节的常用方法进行了对比分析,并介绍了特殊应用场景下的数据清洗方式。探讨了提升数据清洗效率的2种方式,分析了电力设备多参量监测数据清洗研究领域面临的主要挑战,对未来发展趋势进行了展望。 展开更多
关键词 电力设备 监测数据 数据清洗 平滑重构 数据清洗效率
下载PDF
基于数据流的织造设备三分量数据清洗算法
2
作者 彭来湖 吴汶糠 +3 位作者 俞博 方辽辽 丁春高 沈春娅 《软件工程》 2024年第8期7-11,共5页
织造车间的信息化以数据采集为基础,但采集过程易产生脏数据,为保证数据被准确采集,文章研究了织造车间的数据采集与清洗算法。首先,针对设备多样、数据并发高的特性,设计了分频采集方案和服务器均衡负载方案,以及织造设备数据流处理有... 织造车间的信息化以数据采集为基础,但采集过程易产生脏数据,为保证数据被准确采集,文章研究了织造车间的数据采集与清洗算法。首先,针对设备多样、数据并发高的特性,设计了分频采集方案和服务器均衡负载方案,以及织造设备数据流处理有向网。其次,针对织造车间的数据特点,将数据分为常分量、增分量和状态分量,并结合箱线图、滑动时间窗研究了三分量清洗算法对各分量数据的清洗。最后,通过实验证明采集方案和数据清洗方法能保证数据采集的实时性、有效性及准确性。 展开更多
关键词 数据采集 数据清洗 三分量 箱线图 滑动时间窗
下载PDF
基于IKNN和LOF的变压器回复电压数据清洗方法研究 被引量:1
3
作者 陈啸轩 邹阳 +3 位作者 翁祖辰 林锦茄 林昕亮 张云霄 《电子测量与仪器学报》 CSCD 北大核心 2024年第2期92-100,共9页
基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近... 基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近邻(IKNN)的回复电压数据清洗方法。首先,选取回复电压极化谱的回复电压极大值Urmax、初始斜率Sr与主时间常数tcdom作为老化特征参量,并基于LOF算法对非标准极化谱中的异常特征量数据进行识别与筛除。其次,利用模糊C均值(FCM)聚类算法减小噪声点对KNN算法的干扰,并通过加权欧氏距离标度突出各特征量间的关联性,进而构建出基于IKNN的数据填补模型架构以实现特征缺失数据的填补。最后,代入多组实测数据验证所提数据清洗方法的实效性。结果表明,数据清洗后的状态评估准确率相较于原有数据上升了50%左右,有效提高了变压器回复电压数据质量,为准确感知变压器运行状况奠定坚实的基础。 展开更多
关键词 油纸绝缘 特征数据清洗 局部离群因子算法 回复电压极化谱 改进K最近邻算法
下载PDF
基于手机信令数据的数据清洗挖掘与常住人口分析 被引量:1
4
作者 韩珍珍 王甜甜 +1 位作者 王程 成彬 《中国科技信息》 2024年第2期102-104,共3页
近年来,由于城市发展的需要,对人口统计工作提出了更高的要求。基层政府统计部门准确地掌握辖区内“有多少人”一直是一大难题。对辖区内常住人口,流动人口的数量和分别的占比更是很难摸清。目前,各市区高度重视人口调控工作,对人口数... 近年来,由于城市发展的需要,对人口统计工作提出了更高的要求。基层政府统计部门准确地掌握辖区内“有多少人”一直是一大难题。对辖区内常住人口,流动人口的数量和分别的占比更是很难摸清。目前,各市区高度重视人口调控工作,对人口数据的掌握也不再满足于之前粗粒度的情况,而是要更高的精度,更灵活的划分统计区域。各个基层政府部门按照“底数清,情况明”要求做好人口监测工作。通过对常住人口和流动人口的统计分析,可以掌握不同人群的生活特征,社会活动,有助于对人口流动趋势做出判断,进而为人口政策、城市规划、公共资源配置等方面提供决策依据。 展开更多
关键词 常住人口 政府统计部门 人口统计 人口调控 手机信令数据 公共资源配置 数据清洗 统计分析
下载PDF
自适应密度聚类组合数据清洗的LSTM风电功率预测
5
作者 潘鹏程 刘晖 王仁明 《电力系统及其自动化学报》 CSCD 北大核心 2024年第7期59-66,共8页
风电机运行产生的海量数据中包含大量不同运行情况下造成的异常值,这些数据会对风电功率预测等方面产生影响。为提高风电功率的预测精度,首先,通过建立自适应基于密度的聚类算法与K-均值聚类算法组合数据清洗算法删筛异常值;然后,建立... 风电机运行产生的海量数据中包含大量不同运行情况下造成的异常值,这些数据会对风电功率预测等方面产生影响。为提高风电功率的预测精度,首先,通过建立自适应基于密度的聚类算法与K-均值聚类算法组合数据清洗算法删筛异常值;然后,建立随机森林模型填补缺失值保证数据的完整性;最后,利用长短期记忆神经网络结合气象信息建立风电功率预测模型,并对某风电场实测数据进行风电功率短期预测。研究结果表明,所述方法清洗效率高,预测准确度均高于其他模型,具有良好的预测性能。 展开更多
关键词 组合数据清洗 风电功率预测 长短期记忆 短期预测
下载PDF
一种基于DBSCAN+LAR的风电场数据清洗方法
6
作者 邓韦斯 戴仲覆 +7 位作者 王皓怀 周保荣 鲁聪 程铭 刘显茁 胡甲秋 李崇浩 张洋宁 《电力信息与通信技术》 2024年第6期66-72,共7页
针对因风电场机组异常数据而导致风电功率预测精度下降的问题,文章提出一种基于密度噪声应用空间聚类(density-based spatial clustering of applications with noise,DBSCAN)算法加上最小绝对残差(least absolute residual,LAR)法的风... 针对因风电场机组异常数据而导致风电功率预测精度下降的问题,文章提出一种基于密度噪声应用空间聚类(density-based spatial clustering of applications with noise,DBSCAN)算法加上最小绝对残差(least absolute residual,LAR)法的风电场数据清洗方法。首先利用DBSCAN算法识别分散型异常数据,然后基于LAR方法构建堆积型异常数据识别模型,分别实现对风电场分散型异常数据和堆积型异常数据的清洗,最后通过Pearson相关系数和反向传播神经网络预测模型验证所提方法的效果。结果表明,基于DBSCAN+LAR的风电场数据清洗方法能有效减小风电功率预测误差。 展开更多
关键词 风电场 异常数据 DBSCAN LAR 数据清洗
下载PDF
面向多样化数据清洗任务的证据集智能选择方法
7
作者 钱泽凯 丁小欧 +2 位作者 孙哲 王宏志 张岩 《计算机科学》 CSCD 北大核心 2024年第8期124-132,共9页
由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查... 由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查询的增量式质量评估方案和基于中间算子证据集的算子结果选择方案,在多种清洗任务下实现了多种清洗方法配合的高效数据清洗。在所提清洗模型中,算子库提供数据清洗结果并将其转换为中间算子;中游的采样器将中间算子集分流和剪枝,给搜索器提供优质的候选证据集;下游的搜索器在质量评估器的指导下进行证据集的选择,搜索完毕后向上游算子库更新数据和必要的参数,使算子库重新迭代生成中间算子。最后,基于3个不同规模的真实数据集进行了大量实验,通过不同数据清洗任务下的性能验证在任意种类的数据清洗需求下算子编排的可行性,并将所提方法和现有的智能数据清洗系统进行性能对比。结果表明,在多种清洗任务中,所提方法在多种数据质量约束、动态和大规模的数据清洗方面具有稳定的准确率和召回率,且同一清洗时间下异常值、规则违反和混合错误的清洗任务性能优于其他智能数据清洗系统15%以上。 展开更多
关键词 数据清洗 数据质量评估 流水线系统设计 算子选择 证据集
下载PDF
基于数据中台的建筑业数据清洗算法研究 被引量:1
8
作者 曾莎洁 陶兴 张承雄 《信息系统工程》 2024年第5期35-38,共4页
数据清洗是对脏数据进行检测和修复的过程,是进行数据分析应用的前提。对数据缺失、数据重复、数据错误这三种数据噪声的检测技术进行详细阐述,按照数据清洗方式对数据修复技术进行分类概述,包括基于规则的数据清洗算法、基于统计的数... 数据清洗是对脏数据进行检测和修复的过程,是进行数据分析应用的前提。对数据缺失、数据重复、数据错误这三种数据噪声的检测技术进行详细阐述,按照数据清洗方式对数据修复技术进行分类概述,包括基于规则的数据清洗算法、基于统计的数据清洗算法和人工智能技术的数据清洗算法,并提出了基于数据中台的数据获取、清洗、服务架构,结合建筑领域数据特征进行了算法适应性分析,可为建筑领域的数据治理和应用提供重要参考。 展开更多
关键词 数据中台 数据清洗 机器学习 ETL 建筑业
下载PDF
基于3σ-SSA的数据清洗方法在大坝智慧安全监测系统中的应用 被引量:4
9
作者 陈伟楠 杜国志 +1 位作者 张锏 王亦斌 《水利规划与设计》 2024年第1期113-116,130,共5页
数字孪生智慧水利感知网络返回的自动化监测数据具有监测频次高、数据量大、异常值多的特点,传统数据清洗方法难以满足数据预处理精度要求。针对该问题,提出利用奇异谱分析(Singular Spectrum Analysis, SSA)对数据序列进行重构,并根据... 数字孪生智慧水利感知网络返回的自动化监测数据具有监测频次高、数据量大、异常值多的特点,传统数据清洗方法难以满足数据预处理精度要求。针对该问题,提出利用奇异谱分析(Singular Spectrum Analysis, SSA)对数据序列进行重构,并根据3σ准则对实测值及重构数据之间的残差序列进行统计检验,从而实现数据异常值自动识别的数据清洗方法。依托工程实例对该方法的有效性及可应用性进行校验,结果显示,构建的3σ-SSA分析数据清洗方法具有易于实现自动化、对环境量数据依赖度低、处理异常值较多的自动化监测数据仍保持较高准确性等特点。目前已依托国内某水库数字孪生建设工程,在该水库的大坝智慧安全监测系统中得到成功应用。 展开更多
关键词 监测数据 奇异谱分析 数据清洗 安全监测系统
下载PDF
大数据中的数据清洗与预处理技术研究 被引量:2
10
作者 赵恩毅 《信息记录材料》 2024年第3期195-197,共3页
针对当前大数据中的数据清洗与预处理技术的瓶颈问题,本文首先分析了Hadoop框架下的数据处理效率问题,并对数据清洗中的数据冗余、数据不一致、错误数据和缺失数据4个质量问题进行了深入探讨。其次为提高效率提出了基于任务合并的优化技... 针对当前大数据中的数据清洗与预处理技术的瓶颈问题,本文首先分析了Hadoop框架下的数据处理效率问题,并对数据清洗中的数据冗余、数据不一致、错误数据和缺失数据4个质量问题进行了深入探讨。其次为提高效率提出了基于任务合并的优化技术,特别是在MapReduce中减少轮数的策略。最后引入了FLI三层体系,该体系包括Foundation、Logic和Interface 3个层次,通过任务合并技术协同实现数据处理的最大化效率。该策略结合FLI体系,确保了大数据处理的高效和高质量。 展开更多
关键词 数据 数据清洗 数据预处理 Hadoop框架
下载PDF
基于聚类分析法的织造车间能耗数据清洗
11
作者 黄启航 汝欣 +3 位作者 戴宁 俞博 陈炜 徐郁山 《软件工程》 2024年第7期22-27,共6页
针对织造车间数据采集过程中存在的数据质量低、数据冗余高的问题,提出了一种基于聚类分析法的综合数据清洗方法。首先,对纺织企业车间能耗进行层级分析,针对异常数据提出了基于二分K-means算法的异常数据识别方法。其次,针对缺失数据,... 针对织造车间数据采集过程中存在的数据质量低、数据冗余高的问题,提出了一种基于聚类分析法的综合数据清洗方法。首先,对纺织企业车间能耗进行层级分析,针对异常数据提出了基于二分K-means算法的异常数据识别方法。其次,针对缺失数据,采用多样化数据插补办法,实现对不同特征数据的插补;针对数据冗余高的问题,引入可决系数对数据集进行去重,降低数据集冗余。最后,以某纺织企业车间运行数据为对象进行仿真实验,结果表明,经降重后,数据集的数据量降低了83%,数据集预测实验的平均绝对百分比误差波动范围小于2%,该方法在降低数据冗余的同时保证了预测的可靠性。 展开更多
关键词 数据清洗 聚类 异常检测 去重
下载PDF
公共数据清洗相关标准研究
12
作者 邵华 高刚 +1 位作者 杨成实 田歆 《品牌与标准化》 2024年第5期53-55,共3页
在信息化发展迅速的当下,数据质量在各个领域都至关重要。鉴于常见数据存在多种质量问题,公共数据清洗的主要目的是检测并去除数据中的错误和不一致性,以提高数据质量。首先,数据脱敏是确保数据清洗环境安全的重要步骤。其次,通过数据... 在信息化发展迅速的当下,数据质量在各个领域都至关重要。鉴于常见数据存在多种质量问题,公共数据清洗的主要目的是检测并去除数据中的错误和不一致性,以提高数据质量。首先,数据脱敏是确保数据清洗环境安全的重要步骤。其次,通过数据质量管理可以进一步规范数据的质量标准。为了深入理解公共数据清洗,本文将探讨数据脱敏的方法和公共数据质量管理规范。 展开更多
关键词 公共数据 数据清洗 数据脱敏
下载PDF
基于自编码的改进K-means光伏能源数据清洗方法
13
作者 彭勃 李耀东 龚贤夫 《计算机科学》 CSCD 北大核心 2024年第S01期713-717,共5页
智能电网的发展带来了海量能源数据,数据质量是开展数据价值挖掘等任务的基础。然而,多源海量光伏能源数据的采集与传输过程中不可避免地存在异常数据,因此需要进行数据清洗。目前,基于传统统计机器学习的数据清洗模型存在一定的局限性... 智能电网的发展带来了海量能源数据,数据质量是开展数据价值挖掘等任务的基础。然而,多源海量光伏能源数据的采集与传输过程中不可避免地存在异常数据,因此需要进行数据清洗。目前,基于传统统计机器学习的数据清洗模型存在一定的局限性。文中提出了一种基于Transformer自编码结构的改进型K-means聚类模型,用于能源大数据清洗。该模型通过肘部法则自适应地确定聚类簇数,并利用自编码网络对聚类内数据进行压缩和重构,从而实现异常数据的检测和恢复。同时,模型利用Transformer的多头注意力机制学习数据间的相关特征,提高了对异常数据的筛查能力。在光伏发电公开数据集上的实验证明,与其他方法相比,该模型具有更好的异常数据检测效果,筛查准确率可达96%以上。此外,所提模型能在一定程度上恢复异常数据,为能源大数据应用提供了有效的支持。 展开更多
关键词 自编码 数据清洗 异常检测 TRANSFORMER K-MEANS
下载PDF
基于KD-Tree与DBSCAN的水电机组状态监测数据清洗方法
14
作者 谭志锋 姬联涛 +2 位作者 荆岫岩 王璞 田海平 《中国农村水利水电》 北大核心 2024年第3期250-254,共5页
针对水电机组状态监测数据量逐步增大,数据质量差的问题,提出了一种基于改进K维树(K-Dimensional Tree,KD-Tree)与基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)的水电机组状态监测数... 针对水电机组状态监测数据量逐步增大,数据质量差的问题,提出了一种基于改进K维树(K-Dimensional Tree,KD-Tree)与基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)的水电机组状态监测数据清洗方法,首先对输入数据建立KD-Tree,再使用DBSCAN在最近邻样本上扫描完成聚类,聚类结束以后会分离出噪声点,将噪声点去除即可完成对水电机组状态监测数据清洗。选取某水电站状态监测系统上导摆度数据1 088条,再以相同时间间隔插入随机数据100条,通过算例与常规DBScan、K-means、OCSVM算法对比聚类性能与时间性能,所提出的方法识别正确率最高,为97.78%,消耗时间最少,为0.007 732 s,数据清洗效果最优,并可以大幅减少计算时间。 展开更多
关键词 KD-TREE DBSCAN 水电机组 状态监测 数据清洗
下载PDF
基于机器学习的矿井通风数据清洗系统设计
15
作者 刘国榜 朱政 方挺 《金属矿山》 CAS 北大核心 2024年第9期190-197,共8页
针对矿山通风系统数据中普遍存在的噪声、异常值和冗余等问题,提出了一种基于机器学习的数据清洗方法,旨在为矿井智能风险预警、通风策略调整和环境管理等决策过程提供可靠数据。构建了一个包含环境监测参数、风机运行参数和安全运营参... 针对矿山通风系统数据中普遍存在的噪声、异常值和冗余等问题,提出了一种基于机器学习的数据清洗方法,旨在为矿井智能风险预警、通风策略调整和环境管理等决策过程提供可靠数据。构建了一个包含环境监测参数、风机运行参数和安全运营参数等关键参数的数据集,该数据集支持数据清洗算法开发,并且作为评估数据清洗方法的基准。基于构建的数据集,提出了一种综合性的机器学习驱动的数据清洗框架。首先,采用自回归模型对时间序列数据中的缺失值进行估计和填补,该模型能够有效利用数据的时间相关性,提高缺失数据处理的准确性。其次,引入孤立森林算法,通过构建多个随机树来孤立和识别数据点,该模型适合处理高维通风数据中的异常检测问题,能够有效提高异常值的识别率。最后,使用K-均值聚类算法,通过分析数据特征将相似数据点聚合,以减少重复或相似的数据记录。试验结果表明,提出的数据清洗方法有效提高了矿井通风数据质量,为矿井通风管理提供了高质量的数据支持,展现出良好的工程应用价值。 展开更多
关键词 矿井通风 智慧矿山 通风系统 机器学习 数据清洗
下载PDF
基于LSTM的污水处理厂在线数据清洗研究
16
作者 成志轩 张楠 蒋云鹏 《给水排水》 CSCD 北大核心 2024年第6期159-163,共5页
污水处理厂工艺仿真技术是实现污水处理厂智慧化管理的重要手段,然而基础在线数据却存在各种缺失、异常等数据质量问题。提出了一种基于LSTM的污水处理厂在线数据清洗方法:首先基于统计学方法进行初步异常检测;再基于业务逻辑辅助界定异... 污水处理厂工艺仿真技术是实现污水处理厂智慧化管理的重要手段,然而基础在线数据却存在各种缺失、异常等数据质量问题。提出了一种基于LSTM的污水处理厂在线数据清洗方法:首先基于统计学方法进行初步异常检测;再基于业务逻辑辅助界定异常;最后采用LSTM模型对数据异常(含缺失值)所在时刻进行预测并完成替换和清洗。该清洗方法已应用于多处污水处理厂在线系统中,结果表明该方法能有效检测并去除异常数据,保障在线模拟结果稳定可靠。 展开更多
关键词 异常检测 数据清洗 LSTM
下载PDF
不同场景下的文本长度异常数据清洗系统设计
17
作者 黄怡 王峰 +2 位作者 胡志亮 胡鹏 胡传胜 《电子设计工程》 2024年第4期94-97,102,共5页
从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据... 从混合数据样本中筛选文本长度异常数据时,文本信息处理所需耗时较长,为此设计不同场景下的文本长度异常数据清洗系统。根据场景信息定义表达式,获取元数据样本。根据异常值计算结果,判定文本数据长度。按照总线协议作用原则,调节数据清洗组件的连接状态,完成数据清洗总线的设计,实现不同场景下文本长度异常数据清洗系统的搭建。对比实验结果表明,筛选信息文本时,该清洗系统可将异常数据与常规数据样本之间的文本长度差提升至3.76×10~7bit,节省了2.7 ms的文本信息处理耗时。 展开更多
关键词 文本长度 异常数据清洗 场景信息 数据 异常值 总线协议
下载PDF
基于稀疏自编码的智能电网海量运行数据清洗
18
作者 王艺博 王清未 李敏 《电子设计工程》 2024年第21期56-59,64,共5页
为解决电网数据样本混合的问题并提升智能电网的运行与响应速率,提出基于稀疏自编码的智能电网海量运行数据清洗方法。按照稀疏自编码原则,建立自编码网络模型,联合数据样本稀疏矩阵,确定深度降维参数的实际取值范围,实现对智能电网运... 为解决电网数据样本混合的问题并提升智能电网的运行与响应速率,提出基于稀疏自编码的智能电网海量运行数据清洗方法。按照稀疏自编码原则,建立自编码网络模型,联合数据样本稀疏矩阵,确定深度降维参数的实际取值范围,实现对智能电网运行数据的降维处理。根据数据仓库定义形式,估算数据样本运行状态,计算聚类清洗参量的具体数值,完成基于稀疏自编码的智能电网海量运行数据清洗算法的设计。实验结果表明,在稀疏自编码原则作用下,电网主机能够准确区分两类数据样本,从而解决电网数据样本混合的问题,达到提升智能电网运行与响应速率的实际应用需求。 展开更多
关键词 稀疏自编码 智能电网 数据清洗 数据样本矩阵 降维处理
下载PDF
一种高校招生录取数据清洗方法与系统实现
19
作者 高晓东 季荣军 《南通职业大学学报》 2024年第1期70-76,共7页
全国普通高校招生网上录取子系统提供了以DBF数据格式的数据下载功能,随着高考制度的改革,不同省份不同批次的招生录取数据结构存在较大差异,对高校后期录取数据的清洗和应用带来一定挑战。为解决招生录取异构数据的标准化问题,对录取... 全国普通高校招生网上录取子系统提供了以DBF数据格式的数据下载功能,随着高考制度的改革,不同省份不同批次的招生录取数据结构存在较大差异,对高校后期录取数据的清洗和应用带来一定挑战。为解决招生录取异构数据的标准化问题,对录取数据结构差异进行分析,通过自定义数据解析规则实现数据抽取和清洗,以灵活应对数据结构变化,并在不修改管理系统代码的前提下,完成系统开发和实现。实践表明,系统能够对异构数据完成自动解析并生成学生档案三联表,提高了高校招生录取数据管理工作效率,可为建立权威、统一的数据中心提供数据基础。 展开更多
关键词 高校招生 录取数据 数据清洗 ETL
下载PDF
领域无关数据清洗研究综述 被引量:27
20
作者 曹建军 刁兴春 +1 位作者 汪挺 王芳潇 《计算机科学》 CSCD 北大核心 2010年第5期26-29,共4页
对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍... 对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍。最后对领域无关数据清洗的研究方向进行了展望。 展开更多
关键词 数据质量 数据清洗 数据集成 领域无关数据清洗
下载PDF
上一页 1 2 54 下一页 到第
使用帮助 返回顶部