期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于数据流聚类的多任务并行数据控制方法
1
作者 张嘉慧 陈智明 +2 位作者 黄科 王晓琪 李子龙 《信息技术》 2024年第3期128-133,共6页
多任务并行数据的类别较多、数据流庞大,导致其控制能力较差,增加了物联网访问负担和通信开销。为了提升数据流稳定性,规范数据流访问过程,提出基于数据流聚类算法的多任务并行数据控制方法。首先利用数据采集与监视系统,从识别、采集... 多任务并行数据的类别较多、数据流庞大,导致其控制能力较差,增加了物联网访问负担和通信开销。为了提升数据流稳定性,规范数据流访问过程,提出基于数据流聚类算法的多任务并行数据控制方法。首先利用数据采集与监视系统,从识别、采集、验证三个方面获取物联网数据流;然后计算各数据流动态趋势间的欧氏距离,使数据流相似度衡量标准统一;将优化后数据流代入聚类算法中,根据数据流时间戳合理对应任务请求;最后利用PLC控制器实现多任务并行数据控制。实验结果表明,所提方法的可扩展性高、加速比高。 展开更多
关键词 数据采集与监视系统 数据流预处理 相似度衡量标准 聚类算法 PLC控制器
下载PDF
基于适应性分段估计的数据流相似性搜索 被引量:4
2
作者 吴枫 仲妍 +2 位作者 吴泉源 贾焰 杨树强 《软件学报》 EI CSCD 北大核心 2009年第10期2867-2884,共18页
相似性搜索在股票交易行情、网络安全、传感器网络等众多领域应用广泛.由于这些领域中产生的数据具有无限的、连续的、快速的、实时的特性,所以需要适合数据流上的在线相似性搜索算法.首先,在具有或不具有全局约束条件下,分别提出了没... 相似性搜索在股票交易行情、网络安全、传感器网络等众多领域应用广泛.由于这些领域中产生的数据具有无限的、连续的、快速的、实时的特性,所以需要适合数据流上的在线相似性搜索算法.首先,在具有或不具有全局约束条件下,分别提出了没有索引结构的DTW(dynamic time warping)下限函数LB_seg_WFglobal和LB_seg_WF,它们是一种分段DTW技术,能够处理数据流上的非等长序列间在线相似性匹配问题.然后,为了进一步提高LB_seg_WFglobal和LB_seg_WF的近似程度,提出了一系列的改进方法.最后,针对流上使用LB_seg_WFglobal或LB_seg_WF可能会出现连续失效的情况,分别提出了DTW的下限函数LB_WFglobal(具有全局约束条件)和上限函数UB_WF、下限函数LB_WF(不具有全局约束条件).通过增量方式快速估计DTW,极大地减少了估计DTW的冗余计算量.通过理论分析和统计实验,验证了该方法的有效性. 展开更多
关键词 相似性搜索 数据流 时间序列分析 动态时间扭曲
下载PDF
面向分布式数据流大数据分类的多变量决策树 被引量:17
3
作者 张宇 包研科 +1 位作者 邵良杉 刘威 《自动化学报》 EI CSCD 北大核心 2018年第6期1115-1127,共13页
分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基... 分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点. 展开更多
关键词 分布式数据流 大数据 分类 几何轮廓相似度 多变量决策树
下载PDF
基于EMD距离的数据流分布式相似性连接技术 被引量:4
4
作者 许嘉 宋超 +1 位作者 吕品 李陶深 《计算机学报》 EI CSCD 北大核心 2019年第8期1779-1796,共18页
随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和... 随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和欧氏距离,EMD距离(Earth Mover’s Distance)因其可以更准确地量化直方图元组之间的相似性而受到广泛关注,被广泛应用于解决基于内容的图像检索、冗余图像识别以及视频对象跟踪等重要应用问题.然而EMD距离的计算复杂度却高达三次方,阻碍了EMD距离在数据流相似性连接问题中的应用.该文基于开源的Apache Storm数据流分布式并行处理框架,设计并实现了基于EMD距离的数据流分布式相似性连接技术,命名为EMD-DDSJ技术.该技术在数据分发时维护了连接计算节点上的数据局部性,并基于该数据局部性增强了连接算法对不相似直方图元组对间EMD计算的过滤性能,提高了各个连接计算节点的执行效率.同时基于连接计算节点的代价模型,提出了基于反馈的负载均衡策略,有效提升EMD-DDSJ技术的整体执行性能.在真实数据集上的实验结果展示了该文提出的EMD-DDSJ技术的高效性和可扩展性,比相关最好的技术在处理吞吐率上最高提升了1.4倍,在元组平均处理延迟上最多降低了44%,并且随着相似性阈值或滑动窗口大小的增大该提升比率还会进一步增大. 展开更多
关键词 EMD距离 相似性连接 数据流 APACHE Storm框架 数据局部性
下载PDF
一种基于分类器相似性集成的数据流分类研究 被引量:2
5
作者 刘余霞 吕虹 刘三民 《计算机科学》 CSCD 北大核心 2012年第12期208-210,共3页
数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基于分类器相似性的动态集成算法。由于数据流中相邻数据具有相同概念的概率较大,因此用最新基分类器代表数据流中即将出现的概念,同时基... 数据流分类已成为当前研究热点之一,如何解决其中的概念漂移和噪声是关键问题,为此提出了一种新的基于分类器相似性的动态集成算法。由于数据流中相邻数据具有相同概念的概率较大,因此用最新基分类器代表数据流中即将出现的概念,同时基于此分类器求出基分类器之间的相似性作为权值进行加权多数投票,并根据相似性大小淘汰较弱基分类器以适应概念漂移和噪声。在标准仿真数据集上进行了仿真实验,结果表明该算法相比其他集成方法在抗噪性能和分类准确性方面均得到显著提高。 展开更多
关键词 概念漂移 相似性 集成学习 数据流分类 加权多数投票
下载PDF
基于LCSS的数据流相似性查询处理算法研究 被引量:3
6
作者 王少鹏 闻英友 赵宏 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期1976-1991,共16页
数据流相似性查询广泛应用于智能家居、环境监测等领域.当前以LCSS(longest common subsequence)作为相似性测度函数的研究并不多.NAIVE算法使用基本动态规划方法计算测度函数值,通过该值与相似阈值的比较得到查询结果,对基于LCSS的数... 数据流相似性查询广泛应用于智能家居、环境监测等领域.当前以LCSS(longest common subsequence)作为相似性测度函数的研究并不多.NAIVE算法使用基本动态规划方法计算测度函数值,通过该值与相似阈值的比较得到查询结果,对基于LCSS的数据流相似性查询问题进行研究.针对NAIVE算法必须在动态规划矩阵所有成员取值的计算完成后才能得到查询结果的缺点,提出了一种基于PS(possible solution)-CC(column critical)域优化策略的数据流相似性查询处理算法.该算法划定了每个窗口上动态规划矩阵的PS域和CC域,很好地利用了这2个域中成员所具有的性质和相似性查询的特点,无须获得测度函数的最终值便可得到查询结果,省略了很多矩阵成员的计算.实验部分证明了该算法的有效性,与同类算法相比,在处理具有更高精度结果要求的查询时效果更好. 展开更多
关键词 数据流 相似性查询 数据畸变 最长公共子序列 动态规划方法
下载PDF
一种基于滑动窗口的数据流相似性查询算法 被引量:2
7
作者 王考杰 郑雪峰 宋一丁 《计算机科学》 CSCD 北大核心 2010年第10期169-172,201,共5页
相似性查询是一种非常重要的数据挖掘应用。由于数据流具有无限、高速等特性,传统的查询算法不能直接应用于数据流。提出了一种基于小波滑动窗口的多数据流相似性查询算法。算法首先将滑动窗口划分成若干等宽基本窗口,然后对每个基本窗... 相似性查询是一种非常重要的数据挖掘应用。由于数据流具有无限、高速等特性,传统的查询算法不能直接应用于数据流。提出了一种基于小波滑动窗口的多数据流相似性查询算法。算法首先将滑动窗口划分成若干等宽基本窗口,然后对每个基本窗口内的数据进行小波分解与系数约简,从而形成小波摘要窗口。执行相似性查询时,直接基于小波摘要进行计算,而无需数据重构。由于利用了小波分解的线性处理优点,算法具有较低的时间复杂度。最后,基于实际数据对算法进行了实验,实验结果证明了算法的有效性。 展开更多
关键词 数据流 相似性查询 滑动窗口 小波分解
下载PDF
基于引力相似度和相对密度的不确定数据流聚类 被引量:5
8
作者 郑祺 黄德才 《上海交通大学学报》 EI CAS CSCD 北大核心 2016年第6期873-878,共6页
针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和... 针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度. 展开更多
关键词 不确定数据流 聚类 引力 相似度 相对密度 离群点
下载PDF
流式时间序列的实时相似度研究 被引量:4
9
作者 屈振新 王宏宇 《计算机工程与科学》 CSCD 北大核心 2017年第6期1056-1062,共7页
动态时间弯曲算法虽然适合度量时间序列的相似度,但是在大数据背景下,对于序列个数多、潜在长度可能是无穷、实时性要求高的流式时间序列,面临着算法简单、计算不简单的可计算问题。以Spark计算平台为基础,针对流式时间序列的特点,提出... 动态时间弯曲算法虽然适合度量时间序列的相似度,但是在大数据背景下,对于序列个数多、潜在长度可能是无穷、实时性要求高的流式时间序列,面临着算法简单、计算不简单的可计算问题。以Spark计算平台为基础,针对流式时间序列的特点,提出了一种流式动态时间弯曲算法,能实时计算动态时间序列近似值,误差可控、稳定,且具备大数据计算能力。最后通过实验验证了算法的可行性和稳定性。 展开更多
关键词 时间序列 相似性 实时 大数据
下载PDF
一种存在级不确定数据流聚类算法 被引量:1
10
作者 邢长征 余彬生 《计算机应用与软件》 CSCD 2015年第4期252-255,共4页
针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结... 针对不确定数据流聚类算法——EMicro在聚类结果的精确性和聚类中数据的概率相似度方面的不足,提出一种新基于存在级的不确定数据流算法——UDs Stream。该算法通过设置概率阈值,将不确定性高的点和不确定性低的点分开处理,提高聚类结果的准确性和聚类中数据概率相似度。同时引入窗口和密度的方法,设置动态密度阈值,能够动态掌握数据流的分布特征,使聚类过程有更好的灵活性。实验结果证明,与EMicro相比,UDs Stream算法聚类效果更好。 展开更多
关键词 不确定数据流 聚类 概率相似度 密度 离群点
下载PDF
基于DTW的时间序列流相似性搜索方法 被引量:8
11
作者 陶洋 李鹏亮 +1 位作者 沈敬红 熊炫睿 《计算机工程与设计》 北大核心 2017年第12期3291-3297,共7页
由于DTW距离度量方法的计算时间和空间复杂度较高,不能满足大规模时间序列流中的相似性搜索要求,提出一种基于DTW的时间序列流相似性搜索方法。利用全局约束和时间序列标准化结合的方法提高搜索的精度,针对时间序列流中数据标准化方法... 由于DTW距离度量方法的计算时间和空间复杂度较高,不能满足大规模时间序列流中的相似性搜索要求,提出一种基于DTW的时间序列流相似性搜索方法。利用全局约束和时间序列标准化结合的方法提高搜索的精度,针对时间序列流中数据标准化方法计算代价过高问题,利用时间序列标准化和封袋逐步更新方法的下界距离,利用双循环缓冲区,存储查询序列的上下边界,进一步提高其数据读取和计算速度。实验结果表明,该方法与传统的静态时间序列搜索方法相比具有相同的准确度,但其搜索速度更快且DTW下界距离紧致性更好。 展开更多
关键词 时间序列流 相似性搜索 动态时间规整 下界距离 数据标准化
下载PDF
可时间局部性感知的块I/O关联挖掘算法 被引量:2
12
作者 黄立锋 邓玉辉 《小型微型计算机系统》 CSCD 北大核心 2015年第5期990-995,共6页
块I/O之间的频繁关联性是存储系统中普遍存在的现象.这种数据块之间的频繁关联性,在改善存储系统的数据布局、优化访问数据的预取策略等方面具有重要意义.传统的频繁关联序列挖掘算法没有考虑数据的时间局部性,不能够有效地挖掘出块I/O... 块I/O之间的频繁关联性是存储系统中普遍存在的现象.这种数据块之间的频繁关联性,在改善存储系统的数据布局、优化访问数据的预取策略等方面具有重要意义.传统的频繁关联序列挖掘算法没有考虑数据的时间局部性,不能够有效地挖掘出块I/O之间的频繁关联性.本文提出了一种关联强化窗口下的可时间局部感知的apriori改进算法来挖掘块I/O之间的频繁关联序列.此外,本文还对支持度达不到阈值却又不容忽视的次频繁关联序列进行了挖掘,与频繁序列形成优势互补.实验中利用了三个真实的Trace对该算法进行评估.实验结果表明改进后的apriori算法更适合于挖掘块I/O数据流的频繁和次频繁关联序列.而且,该算法弥补了传统的频繁关联序列挖掘算法对具有时间敏感性的类流数据进行关联挖掘的缺陷.另外,相比较于apriori算法,该算法的时间效率更高. 展开更多
关键词 关联强化窗口 块I/O关联 频繁关联序列 次频繁关联序列 类流数据
下载PDF
基于数据流相似查询的SCT整合优化算法
13
作者 左利云 《茂名学院学报》 2009年第6期43-46,共4页
提出了一种新的基于数据流相似查询的sct整合优化算法,解决了数据流系统中数据流序列庞大且速度慢的问题。算法先对数据流进行提取和整合形成相似数据流摘要,然后进行相似性查询。经实验证明算法确实有效,并比传统相似查询算法提高了查... 提出了一种新的基于数据流相似查询的sct整合优化算法,解决了数据流系统中数据流序列庞大且速度慢的问题。算法先对数据流进行提取和整合形成相似数据流摘要,然后进行相似性查询。经实验证明算法确实有效,并比传统相似查询算法提高了查询速度和精确率。 展开更多
关键词 数据流 相似性查询 整合优化算法 sct相似性
下载PDF
基于频繁密度分布模式的不确定数据流查询方法 被引量:2
14
作者 迟荣华 黄少滨 吕天阳 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2018年第6期1052-1058,共7页
针对当前不确定数据流相似性查询问题中不确定对象建模不准确的问题,提出了一种面向不确定数据流的相似性查询方法 HB-UTS。利用非参数估计方法对不确定数据流中的对象建模,得到不确定对象的密度函数。通过谱聚类方法挖掘密度函数的频... 针对当前不确定数据流相似性查询问题中不确定对象建模不准确的问题,提出了一种面向不确定数据流的相似性查询方法 HB-UTS。利用非参数估计方法对不确定数据流中的对象建模,得到不确定对象的密度函数。通过谱聚类方法挖掘密度函数的频繁模式,将挖掘后的模式抽象为语义表示的不确定数据流序列。在相似性查询阶段,通过高阶Markov的状态转移矩阵模型构建不确定数据流的索引结构,它在记录不确定数据流存储地址的同时还记录序列元素的存储概率,可有效提高数据流的分步输入查询效率。本文进行了真实与仿真相结合的方法,通过在随机化处理后的真实数据集上的实验以及与其他相似性查询方法的比较,验证了HB-UTS在处理大规模不确定数据流时较好处理能力以及实施效果。 展开更多
关键词 不确定性 数据流 相似性查询 非参数估计 数据挖掘 马尔科夫
下载PDF
一种在线互相似流群发现方法
15
作者 李晓莉 李晓光 王大玲 《小型微型计算机系统》 CSCD 北大核心 2007年第7期1245-1248,共4页
针对基于滑动窗口的互相似流群在线发现这一新的流分析问题,提出一种基于Lp-norm的相似性度量L’p-norm,证明了L’p-norm度量具有对称性、增量性和限制阈值下的传递性特点.基于L’p-norm,提出一种有效降低两两计算次数,增量计算的高效... 针对基于滑动窗口的互相似流群在线发现这一新的流分析问题,提出一种基于Lp-norm的相似性度量L’p-norm,证明了L’p-norm度量具有对称性、增量性和限制阈值下的传递性特点.基于L’p-norm,提出一种有效降低两两计算次数,增量计算的高效互相似流群发现算法ESSG.实验表明,ESSG的运行效率适用于在线分析. 展开更多
关键词 数据流 滑动窗口 相似性
下载PDF
针对具有稀疏性的流式大数据卸载方法 被引量:1
16
作者 王顺 李振星 +2 位作者 连增申 曾国荪 丁春玲 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第2期276-286,共11页
在保证实时性的前提下提高流式大数据卸载的准确性是一个重要问题。针对具有稀疏性的流式大数据开展2种典型场景下的卸载研究。对普通均匀业务的流式大数据进行空间建模,使用弹性距离对数据间的距离进行放缩,提出基于离心率的卸载方法... 在保证实时性的前提下提高流式大数据卸载的准确性是一个重要问题。针对具有稀疏性的流式大数据开展2种典型场景下的卸载研究。对普通均匀业务的流式大数据进行空间建模,使用弹性距离对数据间的距离进行放缩,提出基于离心率的卸载方法。对异常检测业务流式大数据应用场景进行特征分析,使用预处理自动机对数据的动态处理过程进行描述,在综合考虑数据和处理行为相似度基础上,提出基于等价类划分的卸载方法。重复试验表明,所提出的卸载方法与传统卸载方法相比能明显提高卸载的有效性。 展开更多
关键词 流式大数据 数据卸载 稀疏性 弹性距离 行为相似
下载PDF
基于部分重编码的流数据发布隐私保护算法 被引量:2
17
作者 赵素蕊 高双喜 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2018年第1期109-113,共5页
针对流数据具有变化无常、流动极快、潜在无限等特征,相比静态数据隐私保护难度更大的问题,在流数据的基础上提出一种新的数据信息匿名算法,解决了敏感值及其敏感等级随数据转变而转变的难题,能有效地避免匿名流数据遭受链接攻击、相似... 针对流数据具有变化无常、流动极快、潜在无限等特征,相比静态数据隐私保护难度更大的问题,在流数据的基础上提出一种新的数据信息匿名算法,解决了敏感值及其敏感等级随数据转变而转变的难题,能有效地避免匿名流数据遭受链接攻击、相似性攻击以及基于敏感分级的链接攻击威胁.仿真实验结果表明,该流数据匿名模型可有效地保护数据的匿名信息. 展开更多
关键词 流数据 匿名模型 链接攻击 相似性攻击 敏感分级
下载PDF
基于非参数估计与随机模拟的不确定数据流相似性度量方法
18
作者 迟荣华 黄少滨 李熔盛 《山东农业大学学报(自然科学版)》 CSCD 2017年第4期521-524,共4页
针对不确定数据流对象难于度量相似性的问题,本文提出一种非参数估计与随机模拟相结合的方法。本方法利用非参数估计对不确定数据流对象建模,然后利用随机模拟计算对象间的误差相似性,通过相对距离与绝对距离判断相似度。仿真实验验证... 针对不确定数据流对象难于度量相似性的问题,本文提出一种非参数估计与随机模拟相结合的方法。本方法利用非参数估计对不确定数据流对象建模,然后利用随机模拟计算对象间的误差相似性,通过相对距离与绝对距离判断相似度。仿真实验验证了本方法不仅可以准确地度量不确定对象间的相似性,而且在对象规模较大的情况下,依然可以获得较快速和稳定的计算结果。 展开更多
关键词 不确定数据流 非参数估计 随机模拟 相似性
下载PDF
基于流式处理技术的异构教育数据交换方法研究 被引量:1
19
作者 周东岱 李振 刘志勇 《现代教育技术》 CSSCI 北大核心 2019年第8期106-112,共7页
当前,教育数据分布分散、异构多样、结构复杂的特点给数据资源的共享带来巨大挑战。针对异构教育数据的交换共享问题,文章在综述国内外研究现状的基础上,提出了一种无统一元数据标准、基于流式处理技术的异构教育数据交换方法。该方法... 当前,教育数据分布分散、异构多样、结构复杂的特点给数据资源的共享带来巨大挑战。针对异构教育数据的交换共享问题,文章在综述国内外研究现状的基础上,提出了一种无统一元数据标准、基于流式处理技术的异构教育数据交换方法。该方法采用了Storm流式处理框架实现数据的实时交换,通过语义相似度建立元数据的映射关系。基于该方法,文章进一步设计了异构教育数据交换平台的体系架构。与传统的数据交换方法相比,该方法无需管理、维护统一元数据,并能满足实时交换、按需交换的需求。 展开更多
关键词 流式处理 异构教育数据 元数据 语义相似度 STORM
下载PDF
适用于资源受限设备的移动应用类别实时识别方法
20
作者 陈旖 张美璟 许发见 《计算机应用与软件》 北大核心 2021年第7期80-86,92,共8页
针对基于流量分析的移动应用类别识别方法存在计算量大、难以实时识别的问题,提出一种移动应用实时识别方法。根据应用访问域名的特征,将报文进行转换和降维来生成样本向量,并使用支持向量机进行分类。在微型无线网关上对其测试,在对一... 针对基于流量分析的移动应用类别识别方法存在计算量大、难以实时识别的问题,提出一种移动应用实时识别方法。根据应用访问域名的特征,将报文进行转换和降维来生成样本向量,并使用支持向量机进行分类。在微型无线网关上对其测试,在对一组目标应用进行识别时,该方法的识别准确率约为94.4%,CPU使用率峰值约1.8%,内存消耗约1052 KB,吞吐量略微降低。实验表明,该方法能满足资源受限的网络设备进行移动应用类别实时识别的需求。 展开更多
关键词 手机应用类别识别 数据流挖掘 Jaccard包相似度 支持向量机 布隆过滤器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部