-
题名基于节点抽样的分布式二阶段聚类方法
- 1
-
-
作者
张曼静
何玉林
李旭
黄哲学
-
机构
人工智能与数字经济广东省实验室(深圳)
深圳大学计算机与软件学院
-
出处
《计算机科学》
北大核心
2025年第2期134-144,共11页
-
基金
深圳市科技重大专项项目(202302D074)
广东省自然科学基金面上项目(2023A1515011667)
+1 种基金
深圳市基础研究面上项目(JCYJ20210324093609026)
广东省基础与应用基础研究基金粤深联合基金重点项目(2023B1515120020)。
-
文摘
针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后将各节点选定的样本数据传输至中央节点。之后,在中央节点上,对合并的样本数据进行进一步的聚类分析,并将样本聚类的结果传回各个本地节点。最后,各本地节点结合自身的局部聚类结果和中央节点的样本聚类结果,完成最终的聚类标签统一。通过以上流程,所提方法实现了对集中式聚类算法的分布式改造,能够快速一致地完成对全局数据的聚类分析。理论分析和数值实验均表明,与传统的全量数据集中式聚类方法相比,二阶段聚类方法有效地结合了并行处理的高效性和集成分析的准确性,在保证聚类质量的前提下能够显著降低计算资源的消耗,是一种可行的大数据聚类分布式解决方案。
-
关键词
大数据聚类
分布式计算
节点抽样
并行计算
二阶段聚类
-
Keywords
Big data clustering
Distributed computing
Node sampling
Parallel computing
Two-stage clustering
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名加权子空间的随机向量函数链接网络集成方法
- 2
-
-
作者
叶璇
何玉林
张曼静
黄哲学
-
机构
人工智能与数字经济广东省实验室(深圳)
深圳大学计算机与软件学院
-
出处
《西南师范大学学报(自然科学版)》
CAS
2022年第12期1-10,共10页
-
基金
国家自然科学基金面上项目(61972261)
广东省自然科学基金面上项目(2314050006683)
+1 种基金
深圳市基础研究重点项目(JCYJ20220818100205012)
深圳市基础研究面上项目(JCYJ20210324093609026)。
-
文摘
随机向量函数链接网络(RVFL)是一种随机权网络模型,其基于非迭代权重更新方式,直接求解输出层权重完成模型训练,因此具有训练速度快的优点,已有的实验证明了其在分类和回归任务中均具有良好的泛化能力.目前在RVFL的改进工作中存在两点问题:改善网络结构会复杂化模型,容易造成过拟合现象;结合集成学习往往无法进一步通过增加集成多样性来提升模型性能.因此,本文基于子空间策略,提出了一种基于加权子空间的随机向量函数链接网络集成方法(WAB-RVFL).基于RVFL网络结构中输入层和输出层直连的线性特点,WAB-RVFL引入属性优化的思想并提出属性加权矩阵的概念,对属性子空间进行加权转化获得更优质的加权子空间,使其更利于模型进行集成训练.通过在8个高维分类数据集上的实验测试,证实了WAB-RVFL的可行性、合理性和有效性,其能够获得比6种流行的RVFL网络模型更优的泛化能力.
-
关键词
子空间策略
集成学习
泛化能力
粒子群优化
随机向量函数链接网络
-
Keywords
subspace strategy
ensemble learning
generalization ability
particle swarm optimization
random vector function linked network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-