期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
基于数据流的K-S变化检测的动态多目标规划算法 被引量:1
1
作者 张涛 周晨 +2 位作者 杜锋 陈芳 刘瑞林 《长江大学学报(自然科学版)》 2024年第1期109-116,共8页
为了更加准确地判断环境是否发生变化并快速追踪动态多目标规划问题(dynamicmulti-objectiveoptimization problem,DMOP)当前时刻的Pareto前沿,提出了一种基于数据流的Kolmogorov-Smirnov(K-S)变化检测的动态多目标规划(DSK-SDMOP)算法... 为了更加准确地判断环境是否发生变化并快速追踪动态多目标规划问题(dynamicmulti-objectiveoptimization problem,DMOP)当前时刻的Pareto前沿,提出了一种基于数据流的Kolmogorov-Smirnov(K-S)变化检测的动态多目标规划(DSK-SDMOP)算法。该算法以NSGA-Ⅱ为基础,通过数据流建立2个时刻的检验窗口,再利用K-S检验基于数据流的Pareto最优前沿是否发生变化,检测2个窗口的数据是否服从同一分布来判断环境是否发生变化,并就环境变化的剧烈程度实行相应的应答机制,以提高对环境的适应程度。利用基于数据流的K-S检测方法,对环境变化不会过于敏感,而且不用提前假设对应目标值的分布,易于操作。通过5个动态多目标规划标准测试函数对该算法进行测试,并和现有的2种算法进行对比分析,结果表明该算法处理动态多目标规划问题具有良好的性能。 展开更多
关键词 动态多目标规划 数据流 K-S检验 NSGA-Ⅱ
下载PDF
非平衡数据流在线主动学习方法
2
作者 李艳红 任霖 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1389-1401,共13页
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主... 数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法. 展开更多
关键词 主动学习 数据流分类 多类非平衡 概念漂移
下载PDF
非平衡概念漂移数据流主动学习方法
3
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据流分类 主动学习 概念漂移 多类不平衡
下载PDF
Spark Streaming动态资源分配策略 被引量:6
4
作者 刘备 谭新明 曹文彬 《计算机应用》 CSCD 北大核心 2017年第6期1574-1579,共6页
针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数... 针对Spark Streaming作为混合大数据计算平台流处理组件时资源调整周期长和不能满足多应用多用户个性化需求的问题,提出了一种多应用下动态资源分配策略(DRAM)。该策略增加了应用全局变量来控制动态资源分配过程。首先,获取历史执行数据反馈和应用全局变量;然后,进行资源增减计算;最后,进行资源增减执行。实验结果表明,所提策略能够有效调整应用资源配额,且在稳定数据流和不稳定数据流两种情况下,其处理延时相比原Spark平台的Streaming策略和Core策略都有所降低;同时该策略也能够提高集群资源利用率。 展开更多
关键词 SPARK 实时数据流 多应用 动态资源分配
下载PDF
基于Multi-GPU平台的大规模图数据处理 被引量:7
5
作者 张珩 张立波 武延军 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期273-288,共16页
在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐... 在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐不能满足缓存整个图数据的应用需求,也催生了大量以单节点上外存I/O优化(out-of-core graph)为主要研究方向的大规模图数据处理系统.为了应对这一瓶颈,现有的算法和系统研究采用对图切分的压缩数据形式(即shards)用以数据传输和迭代计算.然而,这类研究扩展到Multi-GPU平台上往往性能的局限性表现在对PCI-E带宽的高依赖性,同时也由于Multi-GPU上任务负载不均衡而缺乏一定的可扩展性.为了应对上述挑战,提出并设计了基于Multi-GPU平台的支持高效、可扩展的大规模图数据处理系统GFlow.GFlow提出了全新的适用于Multi-GPU下的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合、点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)值各GPU中.通过双层滑动窗口,GFlow动态地加载数据分块从SSD存储至GPU设备内存,并顺序化聚合并应用处理过程中各GPU所生成的Updates.通过在9个现实图数据集上的实验结果可以看出,GFlow在Multi-GPU平台下相比其他支持外存图(out-of-core graph)处理的相关系统性能表现更为优异,对比CPU下的GraphChi和X-Stream分别提升25.6X和20.3X,对比GPU下支持外存图数据处理的GraphReduce系统单GPU提升1.3~2.5X.同时GFlow可扩展性在Multi-GPU上也表现良好. 展开更多
关键词 大规模图数据 multi-GPU 图分块 双层滑动窗口 数据传输
下载PDF
河北省河湖智能视频监控体系关键技术研究与实现 被引量:1
6
作者 刘廷 张成哲 郭珊珊 《水利信息化》 2024年第1期46-51,共6页
针对河北省河湖视频监控系统现状与问题,研究省级河湖智能视频监控体系的关键技术与具体实现。依托物联网、人工智能、云计算等先进技术,探讨河湖视频监控一张图、空间分析、多源数据融合、AI视频智能分析、视频取流等关键技术,采用基... 针对河北省河湖视频监控系统现状与问题,研究省级河湖智能视频监控体系的关键技术与具体实现。依托物联网、人工智能、云计算等先进技术,探讨河湖视频监控一张图、空间分析、多源数据融合、AI视频智能分析、视频取流等关键技术,采用基础设施层、数据服务层、平台服务层、应用层4层架构构建省级河湖智能视频监控体系,分析全省河湖视频资源传输专网、智能分析中心、视频监控一张图及河湖智能视频监控系统的具体实现成果。经过1年多的应用实践,证明该体系合理,能够有效推送疑似河湖违法事件,为视频监控在智慧水利中的应用提供思路框架和技术参考。 展开更多
关键词 智能视频监控 监控体系 河湖 一张图 多源数据融合 视频取流 关键技术
下载PDF
基于核极限学习机的多标签数据流半监督在线分类方法
7
作者 王雨晨 邱士远 +1 位作者 李培培 胡学钢 《模式识别与人工智能》 EI CSCD 北大核心 2024年第8期741-754,共14页
实际应用中涌现的大量流数据具有高速到达、海量、动态变化等特点,同时,这些数据流常含有多个标签且只有少量数据被标记,从而带来多标签数据环境下的概念漂移与标签缺失问题.为此,文中提出基于核极限学习机的多标签数据流半监督在线分... 实际应用中涌现的大量流数据具有高速到达、海量、动态变化等特点,同时,这些数据流常含有多个标签且只有少量数据被标记,从而带来多标签数据环境下的概念漂移与标签缺失问题.为此,文中提出基于核极限学习机的多标签数据流半监督在线分类方法.首先,针对多标签数据流的标签缺失问题,根据滑动窗口将数据流划分为k块,对每块数据构造特征相似性矩阵和标签相似性矩阵,并加入核极限学习机的训练中.同时为了适应流数据的特点,设计增量式更新机制,构建半监督在线核极限学习机.然后,为了适应数据流中的概念漂移问题,采用基于时间戳丢弃更新的机制,预先设定数据规模,当数据到达指定规模后,丢弃最旧的无标签数据,将新的数据加入更新.最后,在10个多标签数据集上的实验表明,文中方法对标签缺失和概念漂移问题具有较强的适应能力,并能保持较优的分类效果. 展开更多
关键词 数据流分类 半监督分类 多标签分类 核极限学习机 概念漂移
下载PDF
基于动态异构集成的多标签数据流分类算法 被引量:1
8
作者 丁剑 武红鑫 韩萌 《计算机工程与设计》 北大核心 2023年第10期3031-3038,共8页
使用反映数据变化机制的自适应模型可以更好处理数据流问题。为实现自适应调整集成分类器使其更符合数据特性,提出一种基于动态异构集成的多标签数据流分类算法。通过使用H个不同分类算法分别训练固定大小的数据块,生成候选分类器组E={E... 使用反映数据变化机制的自适应模型可以更好处理数据流问题。为实现自适应调整集成分类器使其更符合数据特性,提出一种基于动态异构集成的多标签数据流分类算法。通过使用H个不同分类算法分别训练固定大小的数据块,生成候选分类器组E={E 1,…,E H},利用几何加权公式计算每个E i中候选基分类器的权重实现组内的动态更新;提出一种新的自适应选择策略生成最终的异构集成分类器。通过在6个数据集上的大量实验验证,提出算法比现有算法在准确度、基于实例的F1值、微观F1值、宏观F1值上有更好的性能。 展开更多
关键词 多标签分类 数据流 异构 集成分类器 动态更新 自适应选择策略 几何加权
下载PDF
企业多云时序数据实时监测方案研究与实现 被引量:4
9
作者 程学林 郑佳卉 +1 位作者 蒋烁淼 贝毅君 《小型微型计算机系统》 CSCD 北大核心 2023年第1期155-162,共8页
在企业的IT架构不断上云、多云趋势明显的今天,云资源在系统的开发、运行和维护中扮演着举足轻重的角色.云资源在运行过程中每时每刻都能产生海量时序数据,然而当前市场上的云监测服务在多云实时监测、异常检测方面都存在一定局限性.针... 在企业的IT架构不断上云、多云趋势明显的今天,云资源在系统的开发、运行和维护中扮演着举足轻重的角色.云资源在运行过程中每时每刻都能产生海量时序数据,然而当前市场上的云监测服务在多云实时监测、异常检测方面都存在一定局限性.针对上述问题提出一种基于时序数据的企业多云实时监测方案MCloudMonitor,围绕多云资源运行产生的海量时序数据提供时序数据存储和实时流处理服务,基于分层时间记忆网络来设计实时在线异常检测算法并将其整合进所实现的系统之中.除此之外,借助测试来评估方案的实现效果,证明基于该方案实现的系统能够帮助运维人员从企业的视角进行便捷的实时多云监测,并且能够准确地进行实时异常检测. 展开更多
关键词 多云 时序数据 实时监测 流处理 异常检测算法
下载PDF
FAAD:an unsupervised fast and accurate anomaly detection method for a multi-dimensional sequence over data stream 被引量:1
10
作者 Bin LI Yi-jie WANG +2 位作者 Dong-sheng YANG Yong-mou LI Xing-kong MA 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2019年第3期388-404,共17页
Recently, sequence anomaly detection has been widely used in many fields. Sequence data in these fields are usually multi-dimensional over the data stream. It is a challenge to design an anomaly detection method for a... Recently, sequence anomaly detection has been widely used in many fields. Sequence data in these fields are usually multi-dimensional over the data stream. It is a challenge to design an anomaly detection method for a multi-dimensional sequence over the data stream to satisfy the requirements of accuracy and high speed. It is because:(1) Redundant dimensions in sequence data and large state space lead to a poor ability for sequence modeling;(2) Anomaly detection cannot adapt to the high-speed nature of the data stream, especially when concept drift occurs, and it will reduce the detection rate. On one hand, most existing methods of sequence anomaly detection focus on the single-dimension sequence. On the other hand, some studies concerning multi-dimensional sequence concentrate mainly on the static database rather than the data stream. To improve the performance of anomaly detection for a multi-dimensional sequence over the data stream, we propose a novel unsupervised fast and accurate anomaly detection(FAAD) method which includes three algorithms. First, a method called "information calculation and minimum spanning tree cluster" is adopted to reduce redundant dimensions. Second, to speed up model construction and ensure the detection rate for the sequence over the data stream, we propose a method called"random sampling and subsequence partitioning based on the index probabilistic suffix tree." Last, the method called "anomaly buffer based on model dynamic adjustment" dramatically reduces the effects of concept drift in the data stream. FAAD is implemented on the streaming platform Storm to detect multi-dimensional log audit data.Compared with the existing anomaly detection methods, FAAD has a good performance in detection rate and speed without being affected by concept drift. 展开更多
关键词 data stream multi-DIMENSIONAL SEQUENCE ANOMALY detection Concept DRIFT Feature selection
原文传递
基于插件的安全数据处理框架及实践
11
作者 李佳 《电信工程技术与标准化》 2023年第2期45-50,共6页
本文提出了一种海量安全数据统一采集处理分析框架及方法,采用大数据、流数据插件和机器学习等多种技术,创新性地实现对异构分散的数据进行多源异构适配、实时流式分析、动态解析和关联计算处理,满足了数据实时处理入库的需要,并通过实... 本文提出了一种海量安全数据统一采集处理分析框架及方法,采用大数据、流数据插件和机器学习等多种技术,创新性地实现对异构分散的数据进行多源异构适配、实时流式分析、动态解析和关联计算处理,满足了数据实时处理入库的需要,并通过实践为安全运营工作提供了重要数据支撑。 展开更多
关键词 网络安全 多源异构 流数据处理
下载PDF
分段加权的概念漂移检测方法
12
作者 陈志强 韩萌 +2 位作者 武红鑫 李慕航 张喜龙 《计算机应用》 CSCD 北大核心 2023年第3期776-784,共9页
针对现有漂移检测方法无法平衡检测延迟、误报与漏报以及时空效率等问题,提出一个新的阶段转换阈值参数,在概念漂移检测中引入包含“稳定阶段-警告阶段-漂移阶段”的分段加权机制,对实例分阶段地赋予权重,并将该机制应用在双层滑动窗口... 针对现有漂移检测方法无法平衡检测延迟、误报与漏报以及时空效率等问题,提出一个新的阶段转换阈值参数,在概念漂移检测中引入包含“稳定阶段-警告阶段-漂移阶段”的分段加权机制,对实例分阶段地赋予权重,并将该机制应用在双层滑动窗口中;然后基于Hoeffding不等式提出一种分段加权的概念漂移检测方法(MSDDM)。在人工数据集上,相较于FHDDM、HDDM等漂移检测方法,MSDDM能够更快地检测出突变与渐变概念漂移,同时又能保持较低的误检率与漏检率;在真实数据集上,MSDDM相较于其他方法在大部分情况下都具有最高的分类准确率。实验结果表明,MSDDM能够以较高的漂移检测性能和较优的时空效率检测出数据流中的概念漂移。 展开更多
关键词 数据流 概念漂移 漂移检测 滑动窗口 分段加权机制
下载PDF
挖掘多数据流的异步偶合模式的抗噪声算法 被引量:6
13
作者 陈安龙 唐常杰 +2 位作者 元昌安 彭京 胡建军 《软件学报》 EI CSCD 北大核心 2006年第8期1753-1763,共11页
挖掘多数据流的异步偶合模式是具有挑战性的工作.主要的研究工作包括:(1)研究Haar小波滤波技术在挖掘流数据的异步偶合模式中的应用;(2)引入小波系数序列来度量数据流的异步局域偶合度;证明了一系列定理,保证了度量方法的正确性;(3)设... 挖掘多数据流的异步偶合模式是具有挑战性的工作.主要的研究工作包括:(1)研究Haar小波滤波技术在挖掘流数据的异步偶合模式中的应用;(2)引入小波系数序列来度量数据流的异步局域偶合度;证明了一系列定理,保证了度量方法的正确性;(3)设计了环形滑动窗口和挖掘异步偶合模式的抗噪声增量算法,其时间复杂性小于O(n2);(4)使用真实数据进行模拟实验,验证了算法的有效性. 展开更多
关键词 多数据流 异步偶合模式 HAAR小波 环形滑动窗口
下载PDF
基于嵌入式平台的公交车辆监控系统 被引量:8
14
作者 林绿洲 陆起涌 +1 位作者 田小芳 杨迎新 《电讯技术》 2006年第3期78-81,共4页
系统基于ARM9嵌入式软硬件平台,整合了GPS(全球定位系统)、GPRS(通用无线分组业务)以及多数据流传感器,实现对公交车辆位置、温度、人数等数据的采集、传输及反馈,提高了公交系统调度效率和增强了安全性。介绍了系统的构成,并给出软硬... 系统基于ARM9嵌入式软硬件平台,整合了GPS(全球定位系统)、GPRS(通用无线分组业务)以及多数据流传感器,实现对公交车辆位置、温度、人数等数据的采集、传输及反馈,提高了公交系统调度效率和增强了安全性。介绍了系统的构成,并给出软硬件的设计方案。 展开更多
关键词 公交监控系统 ARM平台 GPS GPRS 多数据流
下载PDF
基于负载均衡的随机作业流密码服务调度算法 被引量:5
15
作者 李莉 史国振 +2 位作者 耿魁 董秀则 李凤华 《通信学报》 EI CSCD 北大核心 2018年第6期11-19,共9页
针对安全领域业务流并行处理系统面临数据密码服务请求多样,串行工作模式和并行工作模式交叉,不同业务的数据流相互交叉的现状以及服务响应的高速、高可靠性需求的问题,为了提高多密码算法并行处理的效率,以负载均衡为调度目标,在基于... 针对安全领域业务流并行处理系统面临数据密码服务请求多样,串行工作模式和并行工作模式交叉,不同业务的数据流相互交叉的现状以及服务响应的高速、高可靠性需求的问题,为了提高多密码算法并行处理的效率,以负载均衡为调度目标,在基于业务标识的分层硬件调度方法 HHS-ACDID基础上,综合考虑算法处理节点的存储容量和处理速度,设计一种同时支持非关联任务和关联任务的负载均衡作业调度算法,实现了高速的密码处理吞吐率。仿真结果表明,该算法能够完成对数据流系统的动态调度并且得到较优的负载均衡效果,与HHS-ACDID相比,执行效率提高12%左右。 展开更多
关键词 作业调度 并行处理 负载均衡 多密码算法 数据流
下载PDF
基于多维数据流挖掘技术的入侵检测模型与算法 被引量:25
16
作者 毛国君 宗东军 《计算机研究与发展》 EI CSCD 北大核心 2009年第4期602-609,共8页
网络访问数据有着数据流的高速、无穷达到的特点,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型是不可行的.针对网络访问数据流的特点,提出了一种基于多维数据流挖掘技术的入侵检测模型.此模型将传统的误用检测和异常检测两... 网络访问数据有着数据流的高速、无穷达到的特点,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型是不可行的.针对网络访问数据流的特点,提出了一种基于多维数据流挖掘技术的入侵检测模型.此模型将传统的误用检测和异常检测两种入侵检测方法进行有机融合,因此能够克服目前广泛使用的误用检测方法无法检测新的攻击类型的缺点,并且也能够保持检测的高效性.网络访问数据记录的结构是复杂的,一个访问行为总是联系到许多属性,所以分析的难度很大.因此,引入多维频度等概念来解决网络数据流的模式表示和生成问题.同时,针对多维频度模式的特点,提出了一种新型数据结构MaxFP-Tree.在MaxFP-Tree的基础上,给出了一种高效的挖掘网络访问数据流的学习算法MaxFPinNDS.MaxFPinNDS采用衰减机制挖掘,可以快速地形成一个数据流的最近时期数据所隐含的最大频繁项目集.实验表明,设计的入侵检测模型是有效的. 展开更多
关键词 多维数据流 入侵检测 异常检测 误用检测 最大频繁项集
下载PDF
基于多帧数据的目标分群算法 被引量:8
17
作者 龙真真 张策 +1 位作者 吴伟胜 刘飞裔 《计算机工程》 CAS CSCD 北大核心 2009年第23期168-171,共4页
针对在多帧数据条件下的目标分群问题,提出一种基于数据流聚类的动态目标分群算法TG-Stream,该算法由在线和离线2个部分组成。在线部分采用临时存储结构(TSS)和金字塔时间框架保存侦察数据集的概要信息,离线部分采用CNM算法对时间框架... 针对在多帧数据条件下的目标分群问题,提出一种基于数据流聚类的动态目标分群算法TG-Stream,该算法由在线和离线2个部分组成。在线部分采用临时存储结构(TSS)和金字塔时间框架保存侦察数据集的概要信息,离线部分采用CNM算法对时间框架的信息进行聚类,最终得到分群的结果。实验结果表明,TG-Stream具有灵活的精度和效率平衡性,能较好地满足决策辅助系统处理实时信息的需要。 展开更多
关键词 目标分群 多帧数据 数据流聚类 态势估计
下载PDF
面向电力大数据的多数据流实时处理技术研究 被引量:8
18
作者 孟庆强 胡牧 +1 位作者 孙立华 郑浩泉 《计算机与数字工程》 2018年第5期987-991,共5页
随着电力大数据的形成与深化应用,传统数据批处理技术已不能满足当前电网实时应用要求,多源数据的即时获取和实时关联计算已成为制约电力大数据全面应用的关键因素。论文梳理了国内外大数据实时处理的技术发展现状,探讨了电力大数据实... 随着电力大数据的形成与深化应用,传统数据批处理技术已不能满足当前电网实时应用要求,多源数据的即时获取和实时关联计算已成为制约电力大数据全面应用的关键因素。论文梳理了国内外大数据实时处理的技术发展现状,探讨了电力大数据实时处理的应用需求,提出了一种面向多用户的电力大数据流计算服务体系,搭建了电力大数据实时流计算处理平台,以低压用户电量计算为典型应用场景对电力大数据实时计算平台的处理性能进行了验证。 展开更多
关键词 电力大数据 批处理 多数据流 实时处理 流计算
下载PDF
面向大数据流的多任务加速在线学习算法 被引量:10
19
作者 李志杰 李元香 +1 位作者 王峰 匡立 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2545-2554,共10页
多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O(1/T1/2),T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL(accelerated dual averagi... 多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O(1/T1/2),T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL(accelerated dual averaging method for multi-task learning),在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O(1/T2).对多任务权重学习矩阵Wt的迭代闭式解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析.实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和可伸缩性,有较广泛的实际应用价值. 展开更多
关键词 大数据流 多任务 加速 在线学习 收敛分析
下载PDF
面向大数据流的半监督在线多核学习算法 被引量:8
20
作者 张钢 谢晓珊 +1 位作者 黄英 王春茹 《智能系统学报》 CSCD 北大核心 2014年第3期355-363,共9页
在机器学习中,核函数的选择对核学习器性能有很大的影响,而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法,通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核... 在机器学习中,核函数的选择对核学习器性能有很大的影响,而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法,通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核函数参数进行有监督的调整,同时以无监督的方式通过流形学习对核函数参数进行修改,以使得核函数所体现的等距面尽可能沿着数据的某种低维流形分布。算法的创新性在于能同时进行有监督和无监督的核学习,且不需要对历史数据进行再次扫描,有效降低了算法的时间复杂度,适用于在大数据和高速数据流环境下的核函数学习问题,其对无监督学习的支持有效解决了大数据流中部分标记缺失的问题。在MOA生成的人工数据集以及UCI大数据分析的基准数据集上进行算法有效性的评估,其结果表明该算法是有效的。 展开更多
关键词 大数据流 在线多核学习 流形学习 数据依赖核 半监督学习
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部