期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
自学考试“脏数据”问题研究和应对策略
1
作者 林华 《考试研究》 2023年第1期103-108,共6页
从自学考试“脏数据”的类型入手,列举常见的“脏数据”实例,分析其产生原因与来源,尝试从技术层面和政策层面提出数据清洗策略,以提高数据质量,实现对数据的精准分析,为政策制定提供有力保障。
关键词 自学考试 脏数据 清洗
下载PDF
基于数据挖掘的电力负荷脏数据动态智能清洗 被引量:37
2
作者 张晓星 程其云 +1 位作者 周湶 孙才新 《电力系统自动化》 EI CSCD 北大核心 2005年第8期60-64,共5页
来源于SCADA系统的负荷历史数据由于各种原因含有一定的脏数据,在进行高精度的电 力负荷预测或系统分析前必须仔细而合理地对历史数据进行清洗。文中基于数据挖掘理论提出一 种动态的智能清洗模型,先根据模糊软聚类思想对Kohonen神经网... 来源于SCADA系统的负荷历史数据由于各种原因含有一定的脏数据,在进行高精度的电 力负荷预测或系统分析前必须仔细而合理地对历史数据进行清洗。文中基于数据挖掘理论提出一 种动态的智能清洗模型,先根据模糊软聚类思想对Kohonen神经网络进行了改进,改进后的 Kohonen神经网络能实现模糊软聚类的并行计算,提出的动态算法能根据样本集的更新而自动确 定新的聚类中心(即特征曲线),最后与径向基函数(RBF)网络一起构成脏数据的智能清洗模型。 模型的快速性和动态性特点使其宜于进行负荷数据的实时处理,对重庆江北负荷数据的实例分析 说明了该模型的高效性。 展开更多
关键词 数据挖掘 模糊软聚类 神经网络 动态清洗 脏数据
下载PDF
基于改进ART2网络的电力负荷脏数据辨识与调整 被引量:9
3
作者 顾民 葛良全 秦健 《电力系统自动化》 EI CSCD 北大核心 2007年第16期70-74,共5页
为提高电力负荷预测和特性分析的精度,应首先对负荷历史数据的脏数据进行辨识和调整。文中提出了基于改进ART2网络的脏数据辨识与调整模型。该模型首先基于类内样本与类中心距离不同会对类中心的偏移产生不同影响的思想,改善了传统的ART... 为提高电力负荷预测和特性分析的精度,应首先对负荷历史数据的脏数据进行辨识和调整。文中提出了基于改进ART2网络的脏数据辨识与调整模型。该模型首先基于类内样本与类中心距离不同会对类中心的偏移产生不同影响的思想,改善了传统的ART2模式漂移的不足,然后根据残差理论以及电力负荷曲线固有的特征,增加了鉴别修正子系统。利用模型中传统的ART2部分对负荷曲线进行分类并提取其特征曲线,然后再利用鉴别修正子系统对输入的负荷数据进行脏数据辨识与调整。实例分析说明了该方法的有效性。 展开更多
关键词 负荷预测 脏数据辨识 ART2神经网络 模式漂移 残差
下载PDF
基于日志的脏数据检测与恢复 被引量:1
4
作者 朱智林 左天军 牛淑龄 《电子科技》 2004年第5期9-12,共4页
由于性能和其他要求,存在一类特殊的应用,它们要求大批量数据常驻内存,并直接在内存中对数据进行存取访问,增加内存中产生脏数据的可能性。该文对内存中的脏数据进行了分类,并结合传统数据库的日志技术和检查点技术,给出了脏数据的预防... 由于性能和其他要求,存在一类特殊的应用,它们要求大批量数据常驻内存,并直接在内存中对数据进行存取访问,增加内存中产生脏数据的可能性。该文对内存中的脏数据进行了分类,并结合传统数据库的日志技术和检查点技术,给出了脏数据的预防、静态检测和恢复的基本方法。该方法在移动计费系统中得到了应用。 展开更多
关键词 脏数据 校验字 检测与恢复 内存数据管理 日志
下载PDF
混合数据库中的脏数据隔离优化技术仿真 被引量:6
5
作者 吕俊亚 《计算机仿真》 CSCD 北大核心 2014年第4期252-254,268,共4页
研究分布式混合数据库中脏数据有效隔离的问题。分布式混合数据库中,不同区域的数据属性不同,属性体现出的威胁程度由于属性和所在区域的差异,会形成较大反差。传统的安全体系无法对数据库中的不同区域的脏数据根据属性进行高效的隔离,... 研究分布式混合数据库中脏数据有效隔离的问题。分布式混合数据库中,不同区域的数据属性不同,属性体现出的威胁程度由于属性和所在区域的差异,会形成较大反差。传统的安全体系无法对数据库中的不同区域的脏数据根据属性进行高效的隔离,导致数据库中受损数据量不断增加。提出一种基于阀值和隔离标识的脏数据隔离方法,分析分布式混合数据库的实时事务模型,通过数据干扰关系给出损坏数据的确定方法,采用阀值对分布式混合数据库中的脏数据进行动态分区聚类,采用基于隔离标示向量的脏数据实时隔离算法对分布式混合数据库中的脏数据进行准确的隔离和修正,确保分布式混合数据库的完整性和准确性。实验结果说明,上述隔离方法能够对数据库中的脏数据进行准确的隔离。 展开更多
关键词 分布式混合数据 脏数据 阀值 隔离标识 数据干扰关系 隔离
下载PDF
传感器网络中时空关联的脏数据过滤技术
6
作者 周春华 王运成 陈冰 《计算机工程与设计》 CSCD 北大核心 2012年第5期1711-1714,共4页
研究了无线传感器网络中脏数据过滤问题,提出了基于时空关联的脏数据过滤技术。该技术利用无线传感器网络中感知数据的时空关联特性,建立了时空关联脏数据过滤模型,通过其来过滤无线传感器节点产生的错误数据即脏数据。本地节点通过时... 研究了无线传感器网络中脏数据过滤问题,提出了基于时空关联的脏数据过滤技术。该技术利用无线传感器网络中感知数据的时空关联特性,建立了时空关联脏数据过滤模型,通过其来过滤无线传感器节点产生的错误数据即脏数据。本地节点通过时间关联进行一次过滤,过滤掉暂时性错误数据;并在一个簇中采用空间关联进行二次过滤,过滤掉永久性错误数据。实验结果表明了该技术的合理性和有效性。 展开更多
关键词 传感器网络 脏数据 过滤 时空关联
下载PDF
一种基于交替投影的脏数据处理方法
7
作者 于枫 张再跃 程科 《江苏科技大学学报(自然科学版)》 CAS 北大核心 2009年第6期527-530,共4页
由于硬件、软件或传输故障等,用于流量矩阵估计的简单网络管理协议(Simple Network Mamagement Protocol,SNMP)数据可能包含脏数据,从而影响流量矩阵的精度.针对这个问题,提出一种基于SNMP的脏数据处理模型,摆脱了原有SNMP脏数据处理需... 由于硬件、软件或传输故障等,用于流量矩阵估计的简单网络管理协议(Simple Network Mamagement Protocol,SNMP)数据可能包含脏数据,从而影响流量矩阵的精度.针对这个问题,提出一种基于SNMP的脏数据处理模型,摆脱了原有SNMP脏数据处理需要源-目的节点对间流量大规模测量的限制.基于交替投影方法,对此模型提出求得L0范数最小的稀疏脏数据处理方法.该算法降低了网络测量开销和时间复杂度,易于实现.实验表明,该算法对脏数据校正也有较高精度. 展开更多
关键词 稀疏脏数据 交替投影 L0范数最小解
下载PDF
我国开放政府数据“脏数据”问题研究及应对——地方政府数据平台数据质量调查与分析 被引量:29
8
作者 翟军 李晓彤 +1 位作者 苗珍珍 李剑锋 《图书馆》 CSSCI 北大核心 2019年第1期42-51,共10页
数据质量是影响开放数据价值生成的关键因素。本文采用网络调查和数据分析方法,对13个开放数据平台中的数千个数据集进行分析,归纳出29类"脏数据",统计了北京、上海和哈尔滨三地的数据质量问题分布情况。文章建议在引进"... 数据质量是影响开放数据价值生成的关键因素。本文采用网络调查和数据分析方法,对13个开放数据平台中的数千个数据集进行分析,归纳出29类"脏数据",统计了北京、上海和哈尔滨三地的数据质量问题分布情况。文章建议在引进"数据清洗"和"质量检查"环节、采用标准规范等方面借鉴先进经验,提升和保障数据质量。 展开更多
关键词 开放政府数据 数据质量 质量问题 质量管理 脏数据
下载PDF
基于哈希算法的脏数据回写磁盘实时调优策略
9
作者 刘志 张晶 《计算机工程》 CAS CSCD 2014年第6期5-7,12,共4页
针对传统数据库缓冲池脏数据回写磁盘策略实时性与安全性差的问题,提出基于Hash算法与先入先出(FIFO)双向链表的数据库缓冲池脏数据回写磁盘实时调优策略。利用基于负载的调优策略创建多个内存FIFO队列链表,通过Hash算法将数据库缓冲区... 针对传统数据库缓冲池脏数据回写磁盘策略实时性与安全性差的问题,提出基于Hash算法与先入先出(FIFO)双向链表的数据库缓冲池脏数据回写磁盘实时调优策略。利用基于负载的调优策略创建多个内存FIFO队列链表,通过Hash算法将数据库缓冲区内的脏数据块按最后修改时间随机分配到不同队列负载中,实现FIFO队列链表的负载均衡,并利用全局时序约束将链表队列中的脏数据块分批回写磁盘,以解决传统脏数据回写磁盘策略系统资源消耗大与宕机后数据丢失风险高的问题。实验结果证明,该策略能提高脏数据回写的实时性及安全性,降低数据丢失率。 展开更多
关键词 脏数据 先入先出队列链表 哈希算法 缓冲池 时序约束
下载PDF
脏数据库的查询方法研究
10
作者 吴振峰 唐松 谢东 《计算机工程与设计》 CSCD 北大核心 2008年第4期1039-1040,F0003,共3页
对于给定的约束,多个数据源分别是一致的,但是在它们集成时可能是脏的。已经存在的技术能够通过特别的方法识别出数据集成环境下的脏数据,但是不能进行有效处理。分析查询对应的连接图是否为有向连接图,判断查询是否可重写,并且给出了... 对于给定的约束,多个数据源分别是一致的,但是在它们集成时可能是脏的。已经存在的技术能够通过特别的方法识别出数据集成环境下的脏数据,但是不能进行有效处理。分析查询对应的连接图是否为有向连接图,判断查询是否可重写,并且给出了元组概率计算和基本查询重写方法。使用TPC-H基准的数据和查询比较脏数据多粒度的执行性能,实验显示方法是可行的。 展开更多
关键词 关系数据 脏数据 完整性约束 查询处理 聚类
下载PDF
人像采集中脏数据筛查方法研究
11
作者 刘栋 《警察技术》 2019年第2期29-32,共4页
以山东省济宁市公安局对重点人员开展人像采集工作中实际遇到的数据采集不规范的问题为例,先后采用了MD5值校验、图片灰度直方图分析和SIFT聚合分析三种方法,对问题数据进行筛查处理,最终达到了较好的筛查效果,保证了采集数据的准确性。
关键词 数据采集 脏数据 图片灰度直方图 SIFT特征
下载PDF
基于Spark和图论的电力脏数据智能动态检测方法
12
作者 余通 宾冬梅 +3 位作者 凌颖 杨春燕 黎新 谢铭 《中国新技术新产品》 2021年第2期21-23,共3页
该文针对海量、高维电力数据中的脏数据检测存在的问题,提出了基于计算引擎(Spark)和图论的脏数据智能动态检测方法。首先,利用Simhash算法,将高维数据转换为低维二进制串(指纹);其次,设计基于图论的指纹转换策略,完成指纹在极坐标下的... 该文针对海量、高维电力数据中的脏数据检测存在的问题,提出了基于计算引擎(Spark)和图论的脏数据智能动态检测方法。首先,利用Simhash算法,将高维数据转换为低维二进制串(指纹);其次,设计基于图论的指纹转换策略,完成指纹在极坐标下的动态映射,并基于普聚类实现脏数据的智能识别;最后,设计基于Spark的脏数据检测策略,实现海量高维电力数据中脏数据的有效检测,并利用SCADA系统的负荷数据进行实例分析,证明了该方法具有实用性和高效性的特点,并具有良好的伸缩性和加速比。 展开更多
关键词 SPARK 电力数据 海量数据 图论分析 脏数据检测
下载PDF
公交场景下数据质量提升策略研究
13
作者 佀淑燕 熊文 《无线互联科技》 2023年第22期161-164,共4页
文章首先以文献计量分析的方式对国内外数据质量相关研究进行了全面系统地梳理,归纳出6类数据质量问题:数据冗余、数据缺失、数据异常、数据错误、数据冲突和数据稀疏;以一个公交大数据平台为例,针对GPS数据异常和进出站数据缺失,着重... 文章首先以文献计量分析的方式对国内外数据质量相关研究进行了全面系统地梳理,归纳出6类数据质量问题:数据冗余、数据缺失、数据异常、数据错误、数据冲突和数据稀疏;以一个公交大数据平台为例,针对GPS数据异常和进出站数据缺失,着重研究了基于启发式噪声过滤清洗GPS异常的方法(HNFC)以及基于多源数据融合的公交进出站信息补全的清洗方法(MDFC)。实验结果表明,HNFC可过滤掉2.48%的范围异常,修正2.25%的跳跃异常;而MDFC可以保证进出站时刻的平均误差稳定在1.0%以下。研究成果可为公交行业数据质量提升提供指导和借鉴。 展开更多
关键词 数据质量 脏数据 数据清洗 数据异常 数据缺失
下载PDF
构建数据仓库过程中的数据清洗研究 被引量:18
14
作者 刘喜文 郑昌兴 +1 位作者 王文龙 汤刚强 《图书与情报》 CSSCI 北大核心 2013年第5期22-28,共7页
文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据... 文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据清洗的研究进行展望。 展开更多
关键词 数据清洗 脏数据 异常数据检测 重复记录检测
下载PDF
基于置信区间的偏离群数据检测方法 被引量:3
15
作者 夏秀峰 谢光宇 +1 位作者 石祥滨 徐蕾 《计算机工程》 CAS CSCD 北大核心 2008年第21期12-14,17,共4页
异常数据检测与处理是数据仓库系统中数据清洗领域的研究热点。该文提出一种基于置信区间的偏离群数据检测方法,从总体中筛选出有效样本,利用遗传算法从中找到可信样本,利用可信样本确定置信区间,基于置信区间对总体进行检测及处理。该... 异常数据检测与处理是数据仓库系统中数据清洗领域的研究热点。该文提出一种基于置信区间的偏离群数据检测方法,从总体中筛选出有效样本,利用遗传算法从中找到可信样本,利用可信样本确定置信区间,基于置信区间对总体进行检测及处理。该方法所处理的数据不需要与时间相关,且可以快速地识别、检测出大数据量中的"脏数据"。实验结果表明,该方法能有效地解决无规则状态下的偏离群数据的检测,并在实际应用中取得了良好效果。 展开更多
关键词 脏数据 置信区间 偏离群数据 遗传算法
下载PDF
数据清洗前的预处理方法 被引量:3
16
作者 唐懿芳 钟达夫 张师超 《广西科学》 CAS 2005年第2期118-122,共5页
为提高数据清洗的质量,提出消除脏数据域、使用统一的缩写、数据的转换等预处理方法,基于这3种方法和链表存储复制记录算法,设计一个数据清洗的系统,与其他方法的效率与准确程度比较可知,该系统的数据准确程度要高于现有的数据清洗系统.
关键词 数据清洗 脏数据 预处理 外部源文件
下载PDF
基于数据质量控制的ETL 被引量:4
17
作者 孙水华 刘建华 林志强 《福建工程学院学报》 CAS 2011年第4期363-366,共4页
提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工... 提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工作流程,提高了进入数据挖掘中数据的质量。 展开更多
关键词 ETL过程 脏数据处理 数据预处理 数据质量评估
下载PDF
无检测器道路交通流数据质量检测方法 被引量:1
18
作者 王方 李华 杜金玲 《计算机工程》 CAS CSCD 2014年第3期218-223,共6页
一般交通流数据质量检测方法要求的原始数据量较大,而无检测器道路可获得的交通流数据又非常有限。为此,提出一种基于灰色系统理论的无检测器道路交通流数据质量检测方法。该方法将不同检测点获得的原始交通流数据处理成一组数据序列,... 一般交通流数据质量检测方法要求的原始数据量较大,而无检测器道路可获得的交通流数据又非常有限。为此,提出一种基于灰色系统理论的无检测器道路交通流数据质量检测方法。该方法将不同检测点获得的原始交通流数据处理成一组数据序列,通过对数据序列的灰生成、灰色关联度计算及标准化处理,求得不同数据序列相互间关系的密切程度参数λ_i,根据需求选出阈值λ,比较λ_i与λ之间的大小,实现无检测器道路交通流异常数据检测的目的。运用杭州市某一局部路网的浮动车交通流原始数据,将该方法与基于相似系数和的检测方法进行对比实验,结果证明,该方法的检测效果优于基于相似系数和的检测方法,平均错检率降低了21.00%,平均准确率提高了28.64%。 展开更多
关键词 智能交通 交通流 脏数据 数据清洗 数据质量 灰色系统理论
下载PDF
水利云下的数据清洗策略研究与实现 被引量:1
19
作者 王海沛 冯军军 贾如春 《软件》 2016年第10期89-93,共5页
随着水利信息化系统迁入云端之后,由设备或人为、环境等各种主客观原因造成采集到云数据中心的数据中含有大量的"脏数据"(如乱序、异常、相似重复、误报、不完整、逻辑错误等),这些大量的"脏数据"会给应用系统带来... 随着水利信息化系统迁入云端之后,由设备或人为、环境等各种主客观原因造成采集到云数据中心的数据中含有大量的"脏数据"(如乱序、异常、相似重复、误报、不完整、逻辑错误等),这些大量的"脏数据"会给应用系统带来高额的处理费用,延长响应时间,甚至会导致数据分析异常,降低决策支持系统的准确率,严重影响系统服务质量,难以支撑上层应用。本文结合项目中的实际情况给出了清洗这些脏数据的流程和方法,并通过实际数据和实验方案验证了本数据清洗方案的有效性,大大改善了水利信息化系统预测预警的效率。 展开更多
关键词 水利云 数据中心 脏数据 数据清洗
下载PDF
ETL中数据清洗技术分析与研究 被引量:3
20
作者 彭秦晋 《晋中学院学报》 2008年第3期101-103,共3页
数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败.数据质量存在问题有多方面的原因,在此基础上提出了实施数据清洗的五个步骤,最后阐述了提高数据质量的方法.
关键词 脏数据 数据 清洗 异常检测
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部