期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
数据清洗中重复记录清洗算法的研究 被引量:5
1
作者 谢文阁 佟玉军 +1 位作者 贾丹 梅红岩 《软件工程师》 2015年第9期61-62,共2页
介绍了数据清洗中的SNM算法和全文索引技术,通过引入全文索引技术对SNM算法进行了改进,以此提高了重复记录查找的速度和准确率,从而较好地提升了SNM算法的性能。
关键词 数据清洗 全文索引 重复记录 清洗算法
下载PDF
基于时序关系的RFID不确定数据清洗算法 被引量:6
2
作者 王霞 玄丽娟 夏秀峰 《辽宁大学学报(自然科学版)》 CAS 2012年第2期174-178,共5页
RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖... RFID原始数据具有海量性和不确定性的特点.通过对不确定数据时序关系的分析,提出了针对不同清洗节点的清洗算法.该类算法打破了传统的基于标签回应次数的方法,在综合考虑RFID数据时间特性的基础上,将RFID数据看成一系列时间序列数据,挖掘数据间的潜在规律.实验表明,该类算法具有很好的可扩展性,有效地提高了数据清洗的准确率. 展开更多
关键词 RFID 时间序列 不确定数据 清洗算法
下载PDF
基于FSM的物联网大数据清洗算法 被引量:4
3
作者 郭雷勇 李宇 《通信技术》 2020年第2期301-311,共11页
在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的... 在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的数据清洗方法,解决其在处理效率方面的不足。对阈值等影响清洗算法准确率的相关因素进行仿真,结果表明基于FSM的海量RFID标签数据清洗算法可以有效清洗标签数据,且性能优于SMURF等算法。 展开更多
关键词 有限状态机 物联网 大数据 清洗算法
下载PDF
农业机械大数据清洗算法研究
4
作者 郑志良 《河北农机》 2022年第19期64-66,共3页
为有效识别和修正农业机械数据异常,提升农业机械大数据平台的应用实效,本文对农业机械数据异常情况进行分析,并提出了基于滑动窗口的在线清洗算法。该算法可以通过窗口数据方差计算,识别异常数据,并生成候选修正数据。通过AR模型、ARX... 为有效识别和修正农业机械数据异常,提升农业机械大数据平台的应用实效,本文对农业机械数据异常情况进行分析,并提出了基于滑动窗口的在线清洗算法。该算法可以通过窗口数据方差计算,识别异常数据,并生成候选修正数据。通过AR模型、ARX模型迭代计算,得到修正后的数据。为验证本文算法的有效性,对算法进行了试验对比分析,结果表明:本研究算法在大规模数据清洗中具备良好的数据异常识别功能;数据修正效果良好;在数据异常修正方面具有精准性,且在数据异常率越低的情况下,本文算法的数据异常修正精准性越高。 展开更多
关键词 农业机械 大数据 数据清洗算法
下载PDF
基于重要度计算的物联网时序大数据智能清洗算法 被引量:2
5
作者 曹勇 于海 《自动化与仪器仪表》 2023年第12期71-75,80,共6页
由于网络环境、硬件或软件设备等因素的影响,致使时序大数据中存在着较多的异常数据,为时序大数据的后续应用带来了较大的困难,提出基于重要度计算的物联网时序大数据智能清洗算法研究。首先根据数据之间具有相关性,对缺失的数据进行补... 由于网络环境、硬件或软件设备等因素的影响,致使时序大数据中存在着较多的异常数据,为时序大数据的后续应用带来了较大的困难,提出基于重要度计算的物联网时序大数据智能清洗算法研究。首先根据数据之间具有相关性,对缺失的数据进行补全,其次采用滑动窗口方法提取时序大数据特征,然后有效融合时序大数据的结构重要度与效用重要度,衡量时序大数据综合重要度,将其与重要度阈值进行比较,完成时序大数据的初级清洗,最后联合改进的模糊C-均值聚类算法检测异常时序大数据,并根据滑动平均的方法依次捕捉数据集的密度范围,确定合适的异常判断阈值,进行异常数据剔除,完成时序大数据的高级清洗,从而实现了物联网时序大数据的智能清洗。实验数据显示:在不同数据量背景下,提出算法获得的时序大数据清洗时间消耗相对较低,最高为32 s;在不同实验工况背景下,提出算法获得的时序大数据清洗质量最大值为98%,其错误清洗率最高为0.02,充分证实了提出算法应用性能较佳。 展开更多
关键词 时序大数据 物联网 清洗算法 时间序列 重要度计算 智能清洗
原文传递
基于多层级指标清洗与聚合的科技创新能力评价研究
6
作者 刘钰莹 王一峰 李伯泽 《科技管理研究》 CSSCI 2024年第6期81-96,共16页
在科技评价和科技管理须融合应用多源异构数据的发展趋势下,中国目前仍未形成普适的综合评价方法体系框架,且现有评估有关创新活动主体科技创新能力的方法无法分析指标间复杂的关联性,有必要构建能够提高数据可信度、实现可迁移性、适... 在科技评价和科技管理须融合应用多源异构数据的发展趋势下,中国目前仍未形成普适的综合评价方法体系框架,且现有评估有关创新活动主体科技创新能力的方法无法分析指标间复杂的关联性,有必要构建能够提高数据可信度、实现可迁移性、适应多种算法的多级综合评价算法框架。鉴于此,提出基于多层级指标清洗与聚合的综合评价框架,包括数据处理层、指标聚合层和综合评价层三层算法,其中双流指标清洗算法根据指标相关性与指标数据间距离关系识别并修正数据中的异常点、极端值,可以提供高可信数据;而结合优劣解距离法的灰色关联法通过构建自适应评价算法,可以根据应用场景特点实现智能的指标聚合,从而克服现有方法在应用场景方面的局限性。基于此,依托深圳市科学技术创新委员会平台和载体专项项目(国际科技信息中心),通过政府官方渠道、调研访谈和次级数据形成研究数据资料,对2016—2021年珠三角地区214家主要科研事业单位,主要通过科技创新基础环境、科技创新产出能力、科技创新投入程度和科技项目承接能力4个一级指标及其二级指标进行科技创新能力综合评价。结果显示:214家单位的科技创新能力近5年稳步增长,于2021年达到峰值,但总体存在较大的差异,其中科技创新投入程度提升显著,科技创新产出能力和科技项目承接能力也明显上升,但整体科技创新基础环境仍有待改善;此外,科技创新头部事业单位格局比较稳定,新兴头部事业单位的成长路径不同,宜根据自身特点强化优势补足劣势。可见,运用所提出的综合评价框架得到的结果具有较高的可比性、精确度和稳健性,可有效揭示珠三角地区不同创新主体的主要优势、发展态势、创新潜力以及薄弱之处。 展开更多
关键词 科技创新能力评价 多层指标 数据清洗 指标聚合 双流指标清洗算法 灰色关联法 量化评价 科研事业单位
下载PDF
一种改进的射频识别数据自适应清洗算法 被引量:1
7
作者 柏堃 赵德鹏 +1 位作者 王科伦 杜福德 《大连海事大学学报》 CAS CSCD 北大核心 2013年第3期67-71,共5页
根据射频识别(RFID)数据特性,对RFID数据自适应清洗算法SMURF进行改进,使其能够更加高效率地处理RFID漏读数据.实验证明,改进后算法较原算法性能更加优越,准确率和稳定性有了进一步提高.
关键词 射频识别(RFID) 数据 漏读 自适应清洗算法 SMURF
原文传递
基于滑动标准差计算的光伏阵列异常数据清洗办法 被引量:35
8
作者 时珉 尹瑞 +1 位作者 胡傲宇 吴骥 《电力系统保护与控制》 EI CSCD 北大核心 2020年第6期108-114,共7页
光伏阵列运行数据中存在大量异常数据,这些异常数据会对光伏阵列性能分析、建模、故障诊断的实现带来困难。为了有效剔除光伏阵列运行数据中的异常数据,提出了一种基于滑动标准差的光伏阵列异常数据清洗方法。分析了阵列异常数据的来源... 光伏阵列运行数据中存在大量异常数据,这些异常数据会对光伏阵列性能分析、建模、故障诊断的实现带来困难。为了有效剔除光伏阵列运行数据中的异常数据,提出了一种基于滑动标准差的光伏阵列异常数据清洗方法。分析了阵列异常数据的来源及分布特性,给出了光伏阵列滑动标准差的计算方法。该方法以滑动标准差的曲线上翘作为异常数据的判断依据。最后通过实例分析以及其他方法对比,说明该算法可以有效降低由于异常数据集中分布带来的异常数据清洗困难。 展开更多
关键词 光伏阵列 功率曲线 异常数据 数据清洗 清洗算法
下载PDF
Simultaneous Optimization of Synthesis and Scheduling of Cleaning in Flexible Heat Exchanger Networks 被引量:9
9
作者 肖丰 都健 +2 位作者 刘琳琳 栾国颜 姚平经 《Chinese Journal of Chemical Engineering》 SCIE EI CAS CSCD 2010年第3期402-411,共10页
A novel methodology is presented for simultaneously optimizing synthesis and cleaning schedule of flexible heat exchanger network(HEN)by genetic/simulated annealing algorithms(GA/SA).Through taking into account the ef... A novel methodology is presented for simultaneously optimizing synthesis and cleaning schedule of flexible heat exchanger network(HEN)by genetic/simulated annealing algorithms(GA/SA).Through taking into account the effect of fouling process on optimal network topology,a preliminary network structure possessing two-fold oversynthesis is obtained by means of pseudo-temperature enthalpy(T-H)diagram approach prior to simultaneous optimization.Thus,the computational complexity of this problem classified as NP(Non-deterministic Polynomial)-complete can be significantly reduced.The promising matches resulting from preliminary synthesis stage are further optimized in parallel with their heat exchange areas and cleaning schedule.In addition,a novel continu- ous time representation is introduced to subdivide the given time horizon into several variable-size intervals according to operating periods of heat exchangers,and then flexible HEN synthesis can be implemented in dynamic manner.A numerical example is provided to demonstrate that the presented strategy is feasible to decrease the total annual cost(TAC)and further improve network flexibility,but even more important,it may be applied to solve large-scale flexible HEN synthesis problems. 展开更多
关键词 flexible heat-exchanger network SYNTHESIS cleaning schedule continuous time representation simultaneous optimization
下载PDF
基于局部离群因子的数据异常识别方法及其在古建结构监测中的应用 被引量:4
10
作者 杨娜 付颖煜 李天昊 《建筑结构学报》 EI CAS CSCD 北大核心 2022年第10期68-75,共8页
基于结构健康监测,深入挖掘监测数据信息是获取古建筑结构健康状态,是保证其耐久性与安全性的重要手段。为精准开展数据分析与结构安全评估工作,区分硬件异常、人为扰动或环境突变两类数据异常成因,分别定义两类砌体结构古建筑监测数据... 基于结构健康监测,深入挖掘监测数据信息是获取古建筑结构健康状态,是保证其耐久性与安全性的重要手段。为精准开展数据分析与结构安全评估工作,区分硬件异常、人为扰动或环境突变两类数据异常成因,分别定义两类砌体结构古建筑监测数据异常。结合砌体结构古建筑监测数据长期静态缓变的特性,提出基于密度的改进离群点识别算法以提高监测数据清洗的质量。通过对时间序列数据的压缩分割,以及子时间序列数据的转化,实现精准拾取数据中的局部离群点。经定性定量分析,基于局部离群密度的改进离群点识别算法对于识别砌体结构古建筑监测数据局部离群点的准确度高、效率高,能够解决现有数据离群点识别算法不适用于砌体结构古建筑监测数据的问题。 展开更多
关键词 古建筑结构 监测数据 局部离群点 数据清洗算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部