期刊文献+
共找到2,666篇文章
< 1 2 134 >
每页显示 20 50 100
非平衡数据流在线主动学习方法
1
作者 李艳红 任霖 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1389-1401,共13页
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主... 数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法. 展开更多
关键词 主动学习 数据流分类 多类非平衡 概念漂移
下载PDF
非平衡概念漂移数据流主动学习方法
2
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据流分类 主动学习 概念漂移 多类不平衡
下载PDF
基于数据流的K-S变化检测的动态多目标规划算法
3
作者 张涛 周晨 +2 位作者 杜锋 陈芳 刘瑞林 《长江大学学报(自然科学版)》 2024年第1期109-116,共8页
为了更加准确地判断环境是否发生变化并快速追踪动态多目标规划问题(dynamicmulti-objectiveoptimization problem,DMOP)当前时刻的Pareto前沿,提出了一种基于数据流的Kolmogorov-Smirnov(K-S)变化检测的动态多目标规划(DSK-SDMOP)算法... 为了更加准确地判断环境是否发生变化并快速追踪动态多目标规划问题(dynamicmulti-objectiveoptimization problem,DMOP)当前时刻的Pareto前沿,提出了一种基于数据流的Kolmogorov-Smirnov(K-S)变化检测的动态多目标规划(DSK-SDMOP)算法。该算法以NSGA-Ⅱ为基础,通过数据流建立2个时刻的检验窗口,再利用K-S检验基于数据流的Pareto最优前沿是否发生变化,检测2个窗口的数据是否服从同一分布来判断环境是否发生变化,并就环境变化的剧烈程度实行相应的应答机制,以提高对环境的适应程度。利用基于数据流的K-S检测方法,对环境变化不会过于敏感,而且不用提前假设对应目标值的分布,易于操作。通过5个动态多目标规划标准测试函数对该算法进行测试,并和现有的2种算法进行对比分析,结果表明该算法处理动态多目标规划问题具有良好的性能。 展开更多
关键词 动态多目标规划 数据流 K-S检验 NSGA-Ⅱ
下载PDF
结合软约束的演化数据流模糊聚类算法
4
作者 代少升 边志奇 袁中明 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期287-298,共12页
多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,... 多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。 展开更多
关键词 数据流聚类 密度聚类 模糊聚类 概念漂移 局部放电
下载PDF
基于自适应深度集成网络的概念漂移收敛方法
5
作者 郭虎升 孙妮 +1 位作者 王嘉豪 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期172-183,共12页
概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模... 概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模型难以实时调整以适应动态变化的数据流.为解决上述问题,将梯度提升算法的纠错思想引入含概念漂移的流数据挖掘任务之中,提出了一种基于自适应深度集成网络的概念漂移收敛方法(concept drift convergence method based on adaptive deep ensemble networks,CD_ADEN).该模型集成多个浅层神经网络作为基学习器,后序基学习器在前序基学习器输出的基础上不断纠错,具有较高的实时泛化性能.此外,由于浅层神经网络有较快的收敛速度,因此所提出的模型能够较快地从概念漂移造成的精度下降中恢复.多个数据集上的实验结果表明,所提出的CD_ADEN方法平均实时精度有明显提高,相较于对比方法,平均实时精度有1%~5%的提升,且平均序值在7种典型的对比算法中排名第一.说明所提出的方法能够对前序输出进行纠错,且学习模型能够快速地从概念漂移造成的精度下降中恢复,提升了在线学习模型的实时泛化性能. 展开更多
关键词 流数据 概念漂移 梯度提升 深度学习 快速适应
下载PDF
面向不同类型概念漂移的两阶段自适应集成学习方法
6
作者 郭虎升 张洋 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1799-1811,共13页
大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同... 大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能. 展开更多
关键词 流数据 概念漂移 集成学习 漂移类型 过滤阶段 扩充阶段
下载PDF
基于混合特征提取的流数据概念漂移处理方法
7
作者 郭虎升 刘艳杰 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1497-1510,共14页
大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题... 大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力. 展开更多
关键词 流数据 概念漂移 特征融合 注意力机制 样本特征 时序特征
下载PDF
不确定大数据流分类的决策树模型构建仿真
8
作者 杨知玲 谭树杰 《计算机仿真》 2024年第5期532-535,542,共5页
在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类... 在不确定大数据流分类过程中,受噪声和孤立点的干扰,导致处理效果和分类精度无法达到预期要求。为解决上述问题,提出一种基于决策树模型的不确定大数据流分类算法。通过采用在线字典学习算法,对不确定大数据流去噪处理,消除噪声对分类过程产生的干扰。构建决策树,在剪枝过程中通过特征过滤算法,滤除不确定大数据流中掺杂的孤立点。将去噪后的不确定大数据流,输入决策树模型中,完成分类工作。实验结果表明,所提算法处理后的不确定大数据流振幅明显减小,且分类精度高,具有一定的应用价值。 展开更多
关键词 决策树模型 在线字典学习算法 特征过滤 不确定大数据流 数据分类
下载PDF
树状结构在数据流求均值中的应用
9
作者 刘薇 陈文 《电脑与电信》 2024年第3期81-83,88,共4页
数据采集过程中,随着数据的增加,数据的平均值持续发生变化。为了研究平均值的变化过程,分析平均值序列的计算方法是有必要的。传统的方法是使用线性顺序存储方式计算均值序列,总的时间复杂度高达O(n2)。提出利用树状结构存储方法求取... 数据采集过程中,随着数据的增加,数据的平均值持续发生变化。为了研究平均值的变化过程,分析平均值序列的计算方法是有必要的。传统的方法是使用线性顺序存储方式计算均值序列,总的时间复杂度高达O(n2)。提出利用树状结构存储方法求取均值序列,并介绍其实现方法,该方法时间复杂度大大降低,仅为O(n*lnn)。 展开更多
关键词 算法 数据流 搜索树 平均值
下载PDF
基于双流自适应时空增强图卷积网络的手语识别
10
作者 金彦亮 吴筱溦 《应用科学学报》 CAS CSCD 北大核心 2024年第2期189-199,共11页
针对提取手语特征过程中出现的信息表征能力差、信息不完整问题,设计了一种双流自适应时空增强图卷积网络(two-stream adaptive enhanced spatial temporal graph convolutional network,TAEST-GCN)实现基于孤立词的手语识别。该网络使... 针对提取手语特征过程中出现的信息表征能力差、信息不完整问题,设计了一种双流自适应时空增强图卷积网络(two-stream adaptive enhanced spatial temporal graph convolutional network,TAEST-GCN)实现基于孤立词的手语识别。该网络使用人体身体、手部和面部节点作为输入,构造基于人体关节和骨骼的双流结构。通过自适应时空图卷积模块生成不同部位之间的连接,并充分利用其中的位置和方向信息。同时采用残差连接方式设计自适应多尺度时空注意力模块,进一步增强该网络在空域和时域的卷积能力。将双流网络提取到的有效特征进行加权融合,可以分类输出手语词汇。最后在公开的中文手语孤立词数据集上进行实验,在100类词汇和500类词汇分类任务中准确率达到了95.57%和89.62%。 展开更多
关键词 骨架数据 双流结构 自适应时空图卷积模块 自适应多尺度时空注意力模块 特征融合
下载PDF
基于增量加权的不平衡漂移数据流分类算法
11
作者 蔡博 张海清 +3 位作者 李代伟 向筱铭 于曦 邓钧予 《计算机应用研究》 CSCD 北大核心 2024年第3期854-860,共7页
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成... 概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning,IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。 展开更多
关键词 数据流 不平衡数据 概念漂移 增量加权 集成学习
下载PDF
地面自动气象站数据流式处理设计与实现
12
作者 肖卫青 薛蕾 +7 位作者 刘振 罗兵 王颖 张来恩 郭萍 霍庆 韩书丽 何文春 《应用气象学报》 CSCD 北大核心 2024年第3期373-384,共12页
针对观测密度和频次日益增加的海量地面自动气象站数据,在气象大数据云平台(天擎)中设计了基于Storm的实时流式处理,利用大规模并行处理的优势提高地面自动气象站数据的处理时效。在流式处理中,设计处理拓扑直接解码标准格式的数据消息... 针对观测密度和频次日益增加的海量地面自动气象站数据,在气象大数据云平台(天擎)中设计了基于Storm的实时流式处理,利用大规模并行处理的优势提高地面自动气象站数据的处理时效。在流式处理中,设计处理拓扑直接解码标准格式的数据消息;消息确认采用手工确认的方式,将数据解码组件锚定数据接入组件,实现每条数据的可靠处理;数据解码时进行字节校验和时间检查等,过滤异常数据;应用批量加定时的发送策略,解决海量监控信息发送气象综合业务实时监控系统(天镜)的问题;集群部署时保留部分剩余资源,有效应对单节点异常。应用效果表明:国家气象站小时数据的服务时效由全国综合气象信息共享系统(CIMISS)的175 s提高至天擎的78 s,约6×10^(4)个区域气象站小时数据的服务时效由CIMISS的5 min提高至天警的2 min,实况分析系统将数据源切换至天擎后,相同时间检索可获取的站点数量较CIMISS增加1倍。2021年12月基于Storm的流式处理与天擎一同在国省业务化运行,实现了长期稳定运行,为MICAPS4、SWAN2.0、实况分析系统等用户提供高效稳定的地面自动气象站数据。 展开更多
关键词 气象大数据云平台 地面自动气象站 STORM RabbitMQ 流式处理 BUFR
下载PDF
基于交互基函数的数据流聚类算法研究
13
作者 黄承宁 李莉 +1 位作者 姜丽莉 徐平平 《计算机技术与发展》 2024年第3期28-34,共7页
聚类是数据挖掘的有效工具,数据流聚类成为当前研究热点,目前很多数据流聚类算法已经被提出,但大部分算法将距离作为相似度度量标准,存在对噪点敏感问题,且聚类效果不理想。为了增强数据流聚类算法的灵活性并提升聚类质量,该文将分数阶... 聚类是数据挖掘的有效工具,数据流聚类成为当前研究热点,目前很多数据流聚类算法已经被提出,但大部分算法将距离作为相似度度量标准,存在对噪点敏感问题,且聚类效果不理想。为了增强数据流聚类算法的灵活性并提升聚类质量,该文将分数阶交互基函数(IBFs)引入数据流聚类,结合模糊ART算法对其进行了扩展,生成柔性决策边策略,提出了新颖的数据流聚类算法IBFs_ART。该算法首先对到达的数据点根据特征之间的相关性通过预计算函数特征扩展,并对原有特征进行分数阶变换,之后再基于交互基函数进行数据流聚类。交互基函数可生成灵活的决策边界且不需要指定软件,预计算函数可以在任何算法中实现,其可用于数据流聚类算法的任何扩展。经过实验表明,使用IBFs实现了较低计算成本生成灵活决策边界来找到最优聚簇,在相同警戒参数下实现了更高聚类质量和纯度,较传统聚类算法拥有更高的聚类精度、对称度量和更小的错误率。 展开更多
关键词 聚类 数据流 数据流聚类 交互基函数 模糊自适应谐振理论
下载PDF
x86处理器向量条件访存指令安全脆弱性分析
14
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(SIMD) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
下载PDF
面向高维流数据的离群值检测算法
15
作者 梁昌好 童英华 冯忠岭 《计算机工程与设计》 北大核心 2024年第5期1406-1412,共7页
累计局部离群因子(cumulative local outlier factor,C_LOF)算法能有效解决数据流中的概念漂移问题和克服离群点检测中的伪装问题,但在处理高维数据时,时间复杂度较高。为有效解决时间复杂度高的问题,提出一种基于投影索引近邻的累计局... 累计局部离群因子(cumulative local outlier factor,C_LOF)算法能有效解决数据流中的概念漂移问题和克服离群点检测中的伪装问题,但在处理高维数据时,时间复杂度较高。为有效解决时间复杂度高的问题,提出一种基于投影索引近邻的累计局部离群因子(cumulative local outlier factor based projection indexed nearest neighbor,PINN_C_LOF)算法。使用滑动窗口维护活跃数据点,在新数据到达和旧数据过期时,引入投影索引近邻(projection indexed nearest neighbor,PINN)方法,增量更新窗口中受影响数据点的近邻。实验结果表明,PINN_C_LOF算法在检测高维流数据离群值时,在保持检测精确度的前提下,其时间复杂度较C_LOF算法明显降低。 展开更多
关键词 高维流数据 离群值检测 累计局部离群因子 时间复杂度 投影索引近邻 局部离群因子 物联网
下载PDF
医院大数据平台建设难点及关键技术研究
16
作者 宋雪 王觅也 +2 位作者 郑涛 师庆科 黄勇 《中国卫生信息管理杂志》 2024年第2期286-290,324,共6页
目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业... 目的解决医院大数据平台在数据采集、治理及应用环节面临的困难。方法总结建设大数据平台的经验,深入分析该平台在各环节的建设难点,提出“流批一体”数据处理、“湖仓一体”存储、存算分离等关键技术方案。结果该平台已接入医院34个业务系统数据、超过3PB的基因组学数据,提供超过2500TFLOPS的算力资源,为医院临床诊疗、管理决策、临床科研提供应用服务。结论以应用为驱动的大数据平台逐步实现了医院数据资产的统一存储和集中管理,有助于推动大数据技术在医疗领域的应用和发展。 展开更多
关键词 医疗大数据 数据采集 数据治理 数据应用 流批一体
下载PDF
基于密度峰值的进化数据流聚类算法
17
作者 翁佳桥 吕莉 +1 位作者 樊棠怀 康平 《计算机仿真》 2024年第6期448-454,共7页
针对现有数据流聚类算法聚类精度低、不能检测数据流簇进化等问题,提出一种基于密度峰值的进化数据流聚类(DPStream)算法。DPStream采用在线微聚类与离线宏聚类两阶段处理框架,引入密度衰减反映数据流近期演化信息;在线微聚类阶段借助... 针对现有数据流聚类算法聚类精度低、不能检测数据流簇进化等问题,提出一种基于密度峰值的进化数据流聚类(DPStream)算法。DPStream采用在线微聚类与离线宏聚类两阶段处理框架,引入密度衰减反映数据流近期演化信息;在线微聚类阶段借助核心微簇与潜在微簇反映簇的生成、进化和衰退,通过生成和维护机制对微簇进行增量维护;当用户聚类请求到来时,使用密度峰值聚类算法进行离线宏聚类,找出核心微簇的簇中心,将剩余核心微簇分配给相应的簇中心所在簇,得到最终的聚类结果。DPStream算法能在数据流的任意时间给出聚类结果,聚类数据流的聚类纯度在小窗口时保持在95%以上,能高质量、高响应的完成数据流聚类。 展开更多
关键词 密度峰值聚类 数据流 两阶段框架 微簇 簇进化 密度衰减
下载PDF
基于聚簇模型重用的概念漂移数据流半监督分类算法
18
作者 康伟 黎利辉 文益民 《计算机科学》 CSCD 北大核心 2024年第4期124-131,共8页
带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史... 带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法1)能有效适应概念漂移,与现有方法相比其性能有显著性提升。 展开更多
关键词 数据流 半监督学习 概念漂移 聚簇模型重用 集成学习
下载PDF
基于滑动窗口的流式RDF数据的模式匹配方法
19
作者 王翔 《计算机工程与设计》 北大核心 2024年第5期1458-1464,共7页
数据在社交网络中通常呈现为流式的特征。针对流式RDF数据,提出一种增量的模式匹配方法。设计一种面向RDF数据的索引结构,被定义为顶点聚簇的数据子图。提出一种基于顶点-边标签映射的有效验证的匹配算法,减少遍历过程中候选数据规模。... 数据在社交网络中通常呈现为流式的特征。针对流式RDF数据,提出一种增量的模式匹配方法。设计一种面向RDF数据的索引结构,被定义为顶点聚簇的数据子图。提出一种基于顶点-边标签映射的有效验证的匹配算法,减少遍历过程中候选数据规模。实验结果表明,该方法在环状和星状查询图的模式匹配算法效率更具时间优势。 展开更多
关键词 数据流 模式匹配 数据子图 数据索引 顶点聚簇 候选验证 增量匹配算法
下载PDF
数据流上的约束跨层级高效用项集挖掘
20
作者 刘淑娟 韩萌 +2 位作者 高智慧 穆栋梁 李昂 《计算机工程与应用》 CSCD 北大核心 2024年第13期287-300,共14页
传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTU... 传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTUL存储并维护窗口内的项集效用和类别信息。基于此结构,首次提出了基于滑动窗口的约束跨层级高效用项集挖掘算法,包括自下而上挖掘的CCLHM_DTU算法和自上而下挖掘的CCLHM_UTD算法。在含有类别信息的数据集上进行了大量实验,实验结果表明提出的算法能够有效处理数据流并灵活约束项集的层级范围。 展开更多
关键词 高效用项集挖掘 跨层级高效用项集 数据流 滑动窗口 效用列表
下载PDF
上一页 1 2 134 下一页 到第
使用帮助 返回顶部