期刊文献+
共找到2,309篇文章
< 1 2 116 >
每页显示 20 50 100
基于K-means聚类和特征空间增强的噪声标签深度学习算法 被引量:2
1
作者 吕佳 邱小龙 《智能系统学报》 CSCD 北大核心 2024年第2期267-277,共11页
深度学习中神经网络的性能依赖于高质量的样本,然而噪声标签会降低网络的分类准确率。为降低噪声标签对网络性能的影响,噪声标签学习算法被提出。该算法首先将训练样本集划分成干净样本集和噪声样本集,然后使用半监督学习算法对噪声样... 深度学习中神经网络的性能依赖于高质量的样本,然而噪声标签会降低网络的分类准确率。为降低噪声标签对网络性能的影响,噪声标签学习算法被提出。该算法首先将训练样本集划分成干净样本集和噪声样本集,然后使用半监督学习算法对噪声样本集赋予伪标签。然而,错误的伪标签以及训练样本数量不足的问题仍然限制着噪声标签学习算法性能的提升。为解决上述问题,提出基于K-means聚类和特征空间增强的噪声标签深度学习算法。首先,该算法利用K-means聚类算法对干净样本集进行标签聚类,并根据噪声样本集与聚类中心的距离大小筛选出难以分类的噪声样本,以提高训练样本的质量;其次,使用mixup算法扩充干净样本集和噪声样本集,以增加训练样本的数量;最后,采用特征空间增强算法抑制mixup算法新生成的噪声样本,从而提高网络的分类准确率。并在CIFAR10、CIFAR100、MNIST和ANIMAL-10共4个数据集上试验验证了该算法的有效性。 展开更多
关键词 噪声标签学习 深度学习 半监督学习 机器学习 神经网络 K-MEANS 特征空间增强 mixup算法
下载PDF
基于空间聚类的供水管线优化改造
2
作者 吴珊 朱熹微 侯本伟 《北京工业大学学报》 CAS CSCD 北大核心 2024年第12期1468-1476,共9页
在城市供水管线更新维护实践中,若按照管材、直径和建设年代等物理属性划分改造管线组,相同管线组内通常包括许多在空间上分散、长短不一的孤立管线,更换这些管线需要频繁的服务中断和额外的资源维修成本。为了减少更换方案中分散的孤... 在城市供水管线更新维护实践中,若按照管材、直径和建设年代等物理属性划分改造管线组,相同管线组内通常包括许多在空间上分散、长短不一的孤立管线,更换这些管线需要频繁的服务中断和额外的资源维修成本。为了减少更换方案中分散的孤立管线数,提出一种基于空间聚类划分管线组的管线优化改造框架。该框架根据管线破损点的空间自相关分析划分空间网格,然后将网格内的管线进一步按管径分组,构成待更换的候选管线组;利用基因表达式编程方法,以及管径、管龄和管长属性参数建立管线破损数失效模型,预测管线组未来的破损数;以最小化破损数为目标函数,年度预算为约束条件,建立管线优化改造的数学模型。将该方法应用于实例管网,对比了空间聚类、属性聚类、基于风险排序3种不同方法得到的管线更换方案;结果表明,与其他2种方法相比,基于空间聚类的方法将空间分散的孤立管线数分别减少36.7%和64.6%。该框架可为制定更具成本效益的供水管线改造方案提供参考。 展开更多
关键词 供水管网 更新改造 空间 失效模型 优化模型 管线分组
下载PDF
基于空间插值的不规则海洋地质样品测试分析数据聚类算法研究
3
作者 邵长高 严镔 陈秋 《热带海洋学报》 CAS CSCD 北大核心 2024年第2期166-172,共7页
海洋地质调查中获取大量海洋沉积物柱状样样品测试分析数据,样品测试分析目的不同导致柱状样数据采样深度不同,由此造成地质取样数据在三维空间上呈现不规则散点状分布。传统聚类算法无法在三维空间上对此类不规则散点数据进行聚类分析... 海洋地质调查中获取大量海洋沉积物柱状样样品测试分析数据,样品测试分析目的不同导致柱状样数据采样深度不同,由此造成地质取样数据在三维空间上呈现不规则散点状分布。传统聚类算法无法在三维空间上对此类不规则散点数据进行聚类分析。对此,文章设计了一种基于空间插值的不规则地质样品测试分析数据聚类算法,有效地将三维样品测试分析散点数据降为二维数据后进行聚类分析,本算法较好地解决了地质体中试验测试数据的不均衡性问题,为海洋地质大数据分析提供了基础技术方法。 展开更多
关键词 地质取样 实验测试 算法 空间插值 三维
下载PDF
基于K_means硬聚类算法的葡萄病害彩色图像分割方法 被引量:65
4
作者 李冠林 马占鸿 +2 位作者 黄冲 迟永伟 王海光 《农业工程学报》 EI CAS CSCD 北大核心 2010年第S2期32-37,共6页
为了提高植物病害图像的分割精度与效果,根据植物病害症状及图像的特点,提出了一种基于K_means硬聚类算法(HCM)的葡萄病害彩色图像非监督性分割处理方法。该方法是在L*a*b*颜色空间模式下利用ab二维数据空间的颜色差异,以平方欧式距离... 为了提高植物病害图像的分割精度与效果,根据植物病害症状及图像的特点,提出了一种基于K_means硬聚类算法(HCM)的葡萄病害彩色图像非监督性分割处理方法。该方法是在L*a*b*颜色空间模式下利用ab二维数据空间的颜色差异,以平方欧式距离作为像素间的相似度距离、以均方差作为聚类准则函数对颜色进行二分类聚类,并通过数学形态学运算对聚类结果进行校正。利用该方法对3种葡萄病害彩色图像进行分割的结果表明,该方法能够较为准确地将病斑区域从彩色图像中分割出来,对葡萄病害彩色图像的分割处理比较理想,鲁棒性好,分割准确率高。 展开更多
关键词 彩色图像分割 葡萄病害 颜色 L*a*b*颜色空间 K_means硬 相似度
下载PDF
基于改进松弛嵌入空间的多视图聚类
5
作者 张瑛 《计算机应用与软件》 北大核心 2024年第4期275-283,共9页
针对传统聚类方法缺乏统一特征表示,存在保守性的缺陷,提出一种基于改进松弛嵌入空间的多视图聚类方法。在统一的框架下联合学习一个综合的潜在嵌入表示矩阵、全局相似矩阵和一个精确指标矩阵。进一步放松全局相似矩阵的约束,并在此基... 针对传统聚类方法缺乏统一特征表示,存在保守性的缺陷,提出一种基于改进松弛嵌入空间的多视图聚类方法。在统一的框架下联合学习一个综合的潜在嵌入表示矩阵、全局相似矩阵和一个精确指标矩阵。进一步放松全局相似矩阵的约束,并在此基础上提出一种改进的松弛多视图聚类嵌入空间,使得该方法具有更低的计算复杂度和更多的数据点对之间的相关性。实验结果表明,该方法能够获得鲁棒性更强、准确度更高的聚类结果。 展开更多
关键词 多视图 嵌入空间 相似矩阵 松弛因子
下载PDF
快速查找初始聚类中心的K_means算法 被引量:19
6
作者 曹志宇 张忠林 李元韬 《兰州交通大学学报》 CAS 2009年第6期15-18,共4页
传统的k_means算法对初始聚类中心十分敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优.为消除这种敏感性,针对k_means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,对公共数据库UCI里面的数据实验表明改进后的k_... 传统的k_means算法对初始聚类中心十分敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优.为消除这种敏感性,针对k_means算法,提出了一种新的基于数据样本分布选取初始聚类中心的方法,对公共数据库UCI里面的数据实验表明改进后的k_means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性. 展开更多
关键词 数据样本 欧式距离 k_means算法 中心
下载PDF
基于Voronoi图的空间点事件统计聚类方法 被引量:1
7
作者 刘敬一 唐建波 +3 位作者 郭琦 姚晨 陈金勇 梅小明 《时空信息学报》 2024年第2期205-215,共11页
挖掘地理空间数据中点事件聚集模式对于揭示流行疾病、犯罪分布热点区域及城市基础设施空间分布格局等具有重要意义。针对不同形状、密度和大小的显著空间点聚集模式的识别,目前以空间扫描统计为代表的方法虽然可以对空间点聚类的显著... 挖掘地理空间数据中点事件聚集模式对于揭示流行疾病、犯罪分布热点区域及城市基础设施空间分布格局等具有重要意义。针对不同形状、密度和大小的显著空间点聚集模式的识别,目前以空间扫描统计为代表的方法虽然可以对空间点聚类的显著性进行统计推断,减少虚假聚类结果,但其主要用于识别球形或椭圆形状的聚簇,对于沿着街道或河道分布的任意形状、不同密度的显著空间点聚簇识别还存在局限。因此,本研究提出一种基于Voronoi图的空间点聚集模式统计挖掘方法。首先,采用Voronoi图来度量空间点分布的聚集性,将空间点聚类问题转化为热点区域探测问题;其次,结合局部Gi*统计量探测统计上显著的空间点聚簇;最后,通过模拟数据和真实犯罪事件数据进行实验与对比分析。结果表明:本方法能够有效探测任意形状的空间点聚类,并对空间点簇的显著性进行统计判别,识别显著的空间点簇,减少随机噪声点的干扰;聚类识别结果优于现有代表性方法,如DBSCAN算法、空间扫描统计方法等。 展开更多
关键词 空间 显著模式 空间数据挖掘 统计检验 犯罪热点分析 VORONOI图
下载PDF
一种改进的K_means聚类方法 被引量:6
8
作者 胡伟 《计算机与现代化》 2012年第1期22-24,56,共4页
针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法。该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加... 针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法。该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行。标准数据集上的实验结果表明,与传统的K_means聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果。 展开更多
关键词 K_means 初始中心 启发式信息 收敛速度
下载PDF
基于K-modes聚类算法的山东省传统村落空间风貌类型及区划研究 被引量:1
9
作者 范勇 李玄 肖文杰 《小城镇建设》 2024年第5期100-107,共8页
传统村落的类型解析及空间区划是开展传统村落整体性保护和区域性发展的基础前提,本文在对山东省传统村落调查的基础上,基于空间基因理论视角,从地景、聚落、建筑、文化4个层次构建起13个指标的传统村落空间风貌分类指标体系,并采用K-mo... 传统村落的类型解析及空间区划是开展传统村落整体性保护和区域性发展的基础前提,本文在对山东省传统村落调查的基础上,基于空间基因理论视角,从地景、聚落、建筑、文化4个层次构建起13个指标的传统村落空间风貌分类指标体系,并采用K-modes聚类算法对山东省177个传统村落进行聚类分析,得到八大空间风貌类型,进一步结合区域文化、地理特点及行政区划,划分出山东省5个传统村落风貌区,从宏观视角分析了山东省传统村落空间风貌特征及其形成与发展的内在逻辑和地理分布规律,为更加整体全面地认识山东省传统村落特点、开展区域性传统村落集中连片保护利用等工作提供科学参考。 展开更多
关键词 传统村落 空间基因 K-modes算法 空间区划 山东省
下载PDF
基于子空间的I-nice聚类算法
10
作者 何一帆 何玉林 +1 位作者 崔来中 黄哲学 《计算机科学》 CSCD 北大核心 2024年第6期153-160,共8页
高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常... 高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常长,且不同数据集和应用场景需要不同的参数设定。为此,提出了基于子空间的I-nice(简记为sub-I-nice)聚类算法用于识别高维数据中子空间内数据簇的个数。首先,该算法将原始数据维度随机划分成多个维度组,根据维度组生成子空间样本;接着,使用最新的I-niceMO算法对每个子空间数据进行聚类;最后,采用新设计的球模型对所有子空间的基聚类结果进行集成。在含有噪声的高维仿真数据集上对所提出的sub-I-nice算法进行了详细的性能验证,实验结果表明sub-I-nice算法相比其他3种代表性聚类算法有更好的准确性和鲁棒性,从而证实了其合理性和有效性。 展开更多
关键词 空间 I-nice 高维数据 无监督学习 球模型
下载PDF
基于模糊c-均值聚类的亚热带丘陵区土壤肥力空间分异与管理分区
11
作者 赖佳鑫 李康祺 +3 位作者 周萍 戴玉婷 郭晓彬 吴金水 《植物营养与肥料学报》 CAS CSCD 北大核心 2024年第4期702-716,共15页
[目的]亚热带丘陵区地形复杂,土壤肥力空间变异大,科学地将土壤按照相似地力进行分区,是实现丘陵区土壤精确管理,优化土壤培肥技术的理论基础。[方法]研究对象位于亚热带丘陵区的典型小流域-湖南省长沙县金井镇,2009年在全镇范围内(112 ... [目的]亚热带丘陵区地形复杂,土壤肥力空间变异大,科学地将土壤按照相似地力进行分区,是实现丘陵区土壤精确管理,优化土壤培肥技术的理论基础。[方法]研究对象位于亚热带丘陵区的典型小流域-湖南省长沙县金井镇,2009年在全镇范围内(112 km~2)密集布置946个样点采集土壤样品,以测定的土壤肥力指标为数据源,包括土壤有机碳(SOC)、全氮(TN)、全磷(TP)、速效氮(AN)、有效磷(AP)和pH,采用地统计学和模糊c-均值聚类算法,分析流域土壤肥力的空间异质性;采用主成分分析法进行土壤肥力分区,并根据数据的差异显著性和变异系数对分区结果进行验证。[结果]除pH外,流域内土壤有机碳、全氮、全磷、速效氮和有效磷均存在中等至强的空间变异,变异系数(CV)介于36%~125%。基于主成分分析和模糊c-均值聚类可将研究区划分为3个肥力管理分区:MZ1、MZ2和MZ3,分区后各土壤肥力指标的变异系数(CV)不同程度地降低,以pH变异系数降幅最小(6%),AP变异系数降幅最大(96%)。同一分区内主要土壤肥力指标趋于同质化,分区间则异质化显著(P<0.01)。分区间水稻产量差异明显,MZ1区晚稻产量和早晚稻总产量显著高于MZ2和MZ3 (P<0.01)。MZ1、MZ2和MZ3区土壤pH值分别为4.12、4.04和4.00,均属于极酸水平;SOC分别为15.15、14.38和12.24 g/kg,均处于高水平;TN也为高水平(1.56、1.48和1.34 g/kg);TP为高至很高水平(0.86、0.69和0.60 g/kg);AN则处于很低至低水平(41.08、35.33和26.16 mg/kg);AP为中低水平(8.63、4.46和3.39 mg/kg)。[结论]亚热带丘陵区地形地貌复杂,是土壤肥力空间变异较大的主要影响因素。通过土壤肥力管理分区,可有效降低区域内肥力指标的变异程度,优化复杂丘陵区耕地管理措施。本研究区域中MZ1、MZ2和MZ3区均应着重改良土壤酸化现象,提高肥料氮素利用率,避免过量施用化学氮肥;MZ1区可适当减施磷肥,避免关键生育期过量施用磷肥;MZ2和MZ3区可以考虑适量施用生物酶活化磷肥或增施有机肥,以提高作物对磷素的利用效率。 展开更多
关键词 土壤肥力分区 空间分异 模糊 主成分分析 养分管理措施
下载PDF
基于聚类的ICN缓存空间规划方法
12
作者 沈皓珂 陈君 韩锐 《计算机应用与软件》 北大核心 2024年第8期132-139,209,共9页
为合理分配信息中心网络(ICN)中每个节点的缓存空间,提出一种基于聚类的ICN缓存空间规划方法。根据节点属性数据集对ICN节点聚类后,以得到的聚类中心属性数据集为每一类分配缓存空间,后根据欧氏距离评估聚类效果为类内每个节点分配缓存... 为合理分配信息中心网络(ICN)中每个节点的缓存空间,提出一种基于聚类的ICN缓存空间规划方法。根据节点属性数据集对ICN节点聚类后,以得到的聚类中心属性数据集为每一类分配缓存空间,后根据欧氏距离评估聚类效果为类内每个节点分配缓存空间,来提高缓存系统性能。在实际应用中,也可以为互联网服务提供商(ISP)提供一定的指导意义。仿真结果表明,该方法与均分分配部署方法、基于度数部署方法、基于介数部署方法相比,缓存命中率有明显提高,响应时延明显降低。 展开更多
关键词 网内缓存 信息中心网络 缓存空间规划
下载PDF
面向无人机通信网络的信道全域特性空间聚类和识别
13
作者 朱古月 李双德 +4 位作者 刘芫健 朱秋明 张静怡 毛开 周哲豪 《电波科学学报》 CSCD 北大核心 2024年第3期432-441,共10页
为提高无人机通信网络的稳定性和可靠性,提出了一种基于信道全域特性的信道子空间聚类与识别方法。首先,利用距离域、时延域、空间域和多普勒域特性对信道进行完备表征,并提出了一种信道子空间聚类方法,将全域特性相似的信道组成信道子... 为提高无人机通信网络的稳定性和可靠性,提出了一种基于信道全域特性的信道子空间聚类与识别方法。首先,利用距离域、时延域、空间域和多普勒域特性对信道进行完备表征,并提出了一种信道子空间聚类方法,将全域特性相似的信道组成信道子空间,作为无人机通信场景分类的依据。然后,提出了一种基于反向传播神经网络的信道子空间识别方法,判断新的信道数据是否属于原有信道子空间的结构,并利用信道全域特性作为特征张量以提高识别精度。同时,通过计算信道与信道子空间中心的距离,消除训练数据异常值的影响,从而提高识别的鲁棒性。最后,通过入射及反弹射线法/镜像法对176个典型数字城市场景进行仿真,获得176000个信道的全域特性和对应信道状态信息,用于验证本文提出的聚类和识别方法的准确性。仿真结果表明,本文提出的场景识别方法可以将传统场景分类方法的176个识别目标减少至20个,且信道子空间中信道状态特性的吻合度达到99%,识别方法的准确度也达到98.7%。因此,本文提出的方法可以精确识别无人机通信工作中所处的信道子空间,为无人机通信性能优化提供依据。 展开更多
关键词 无人机 信道子空间 信道全域特性 和识别 特征张量
下载PDF
面向Shapelet空间的多变量时间序列密度聚类算法 被引量:2
14
作者 盛锦超 杜明晶 +1 位作者 孙嘉睿 李宇蕊 《计算机科学与探索》 CSCD 北大核心 2024年第2期387-402,共16页
多变量时间序列聚类问题已经成为时间序列分析任务中重要的研究课题,相较于单变量时间序列,多变量时间序列的研究复杂性更高,难度更大。尽管当前已经提出了许多针对多变量时间序列的聚类算法,但是这些算法在精度和解释性方面仍旧不足。... 多变量时间序列聚类问题已经成为时间序列分析任务中重要的研究课题,相较于单变量时间序列,多变量时间序列的研究复杂性更高,难度更大。尽管当前已经提出了许多针对多变量时间序列的聚类算法,但是这些算法在精度和解释性方面仍旧不足。其一,当前大部分工作并未考虑多变量时间序列的长度冗余性和变量相关性等问题,导致最终得到的相似性矩阵具有较大误差;其二,数据在聚类过程中普遍采用划分范式,当数值空间呈现复杂分布时该思想表现不佳,并且不具备对各个变量及空间的解释力。针对上述问题,提出了一种面向Shapelet(富有高信息量的连续子序列)空间的多变量时间序列自适应权重密度聚类算法(MDCS)。算法首先对各个变量进行Shapelet搜索,通过自适应策略获取到各自的Shapelet空间,接着对各个变量产生的数值分布进行组合加权,得到了更符合数据分布特征的相似度矩阵,最后利用改进密度计算和二次分配的共享最近邻密度峰值聚类算法对数据进行最终分配。在真实数据集上的实验结果证明,与目前先进的聚类算法相比,MDCS拥有更好的聚类结果,在标准化互信息和兰德系数指标上平均提高了0.344与0.09,兼顾了性能与可解释性。 展开更多
关键词 多变量时间序列 子序列 Shapelet空间 密度峰值 数据挖掘
下载PDF
基于改进的K-means聚类分区均匀化空间学习索引
15
作者 傅晨华 张丰 +1 位作者 胡林舒 王立君 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2024年第2期153-161,195,共10页
传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据... 传统空间索引的体量随数据量的增加而膨胀,查询效率较低。学习索引的体量不随数据量的增加而膨胀,同时避免了层级比较查询,性能优异。将学习索引应用于空间索引存在2个难点:一是选取合适的降维方法实现空间数据的排序;二是对降维后数据序列进行有效的简化分布计算,使其易于拟合。基于此,提出了一种网格混合聚类分区学习索引(grid-ml),用z曲线进行降维,用双层网格结构优化查询策略,用改进的K-means聚类算法进行数据分区,实现数据分布均匀化。对比实验发现,grid-ml构建速度快、存储空间小、查询效率高,较传统空间索引优势显著。 展开更多
关键词 学习索引 K-MEANS 空间填充曲线 空间索引
下载PDF
基于自编码器的过完备多级表示深度子空间聚类
16
作者 汪雷杰 徐慧英 +1 位作者 朱信忠 汪紫莹 《浙江师范大学学报(自然科学版)》 CAS 2024年第2期166-175,共10页
深度子空间聚类网络利用深度自表达性,借助具备全连接层的欠完备深度自编码器,有效地解决了无监督子空间聚类难题.然而,该方法使用输入数据的不完全表示,并且缺乏低级和高级信息的集成,从而损害其鲁棒性.为解决这一问题,提出了一种新的... 深度子空间聚类网络利用深度自表达性,借助具备全连接层的欠完备深度自编码器,有效地解决了无监督子空间聚类难题.然而,该方法使用输入数据的不完全表示,并且缺乏低级和高级信息的集成,从而损害其鲁棒性.为解决这一问题,提出了一种新的深度子空间聚类方法,该方法使用卷积自动编码器将输入图像转换为位于线性子空间联合上的新表示.在编码器层加入了过完备分支,使得网络能够捕捉到更精细的数据细节.此外,在编码器和相应的解码器层之间引入多个完全连接的线性层.这些互相连接的层协同作用,将低级和高级信息结合在一起,从而在编码器的不同层级上生成了多组自表达和信息表示.该过程有效地促进了特征学习过程.最后,引入了一个新的损失最小化问题,利用初始样本聚类有效地集成了多级表示,从而更准确地恢复了底层子空间结构.随后,采用迭代方案来最小化损失函数.在4个真实数据集上的实验结果表明,在大多数子空间聚类场景中,本文方法最优. 展开更多
关键词 无监督学习 深度子空间 自动编码器 过完备表示 多层次表示
下载PDF
海洋环境气候新闻大数据挖掘和空间聚类模型研究
17
作者 钟鸣 张建辉 +1 位作者 毕文璐 李金蓉 《微型电脑应用》 2024年第9期147-150,共4页
以GDELT(global database of event,language,tone)数据库为例,讨论使用数据源路径爬取相关新闻文档。利用改进的AC自动机进行多模关键词匹配完成初步的数据清洗;对过滤好的文档数据进行主题数量评估,再利用LDA模型对其进行主题分类和... 以GDELT(global database of event,language,tone)数据库为例,讨论使用数据源路径爬取相关新闻文档。利用改进的AC自动机进行多模关键词匹配完成初步的数据清洗;对过滤好的文档数据进行主题数量评估,再利用LDA模型对其进行主题分类和关键词提取。根据分类结果,对海洋环境与气候主题新闻数据及相关指标建立空间聚类模型,最终形成一个对海量文档数据进行抓取、清洗、主题挖掘、空间聚类及可视化呈现的分析模型。 展开更多
关键词 GDELT数据库 AC自动机 LDA 空间 OPTICS
下载PDF
基于对比学习的矢量化特征空间嵌入聚类
18
作者 郑洋 吴永明 徐岸 《计算机工程与应用》 CSCD 北大核心 2024年第4期211-219,共9页
深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比... 深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。 展开更多
关键词 深度 对比学习 自编码器 矢量化特征空间 嵌入
下载PDF
整合组织学图像信息增强空间转录组细胞聚类的分辨率
19
作者 王睿 戚继 《生物技术通报》 CAS CSCD 北大核心 2024年第8期39-46,共8页
【目的】增加空间转录组基因表达的空间分辨率以提升遗传发育与疾病研究中的细胞谱系和类型变化的精度,提供更精细的分子表型信息。【方法】通过图像分割实现空间转录组点阵的细胞空间分布模拟,使用线性插值方法重构超分辨率基因空间表... 【目的】增加空间转录组基因表达的空间分辨率以提升遗传发育与疾病研究中的细胞谱系和类型变化的精度,提供更精细的分子表型信息。【方法】通过图像分割实现空间转录组点阵的细胞空间分布模拟,使用线性插值方法重构超分辨率基因空间表达,并利用图聚类方法揭示组织中细胞分布的空间偏好性。【结果】将新方法SpaGMM在小鼠后脑10X Visium数据集上进行检验,可以精确识别小鼠脑神经空间结构域。通过与几种空间转录组聚类的常用方法进行比较,结果显示SpaGMM的聚类结果更加符合组织学区域的注释,这些区域具有大量标记基因的空间表达支持。SpaGMM还可以从小鼠小脑区域中区分出浦肯野细胞(Purkinje cell)和伯格曼胶质细胞(Bergmann glial cell)所对应的组织区域,发现不同细胞层中存在互补的基因表达模式。【结论】SpaGMM可以通过提高点阵的空间分辨率揭示组织结构域的精细结构。 展开更多
关键词 空间转录组学 细胞分割 空间域识别 细胞
下载PDF
统一框架的增强深度子空间聚类方法
20
作者 王清 赵杰煜 +1 位作者 叶绪伦 王弄潇 《计算机应用》 CSCD 北大核心 2024年第7期1995-2003,共9页
深度子空间聚类是一种处理高维数据聚类任务的有效方法。然而,现有的深度子空间聚类方法通常将自表示学习和指标学习作为两个独立的过程,导致在处理具有挑战性的数据时,固定的自表示矩阵会导致次优的聚类结果;另外,自表示矩阵的质量对... 深度子空间聚类是一种处理高维数据聚类任务的有效方法。然而,现有的深度子空间聚类方法通常将自表示学习和指标学习作为两个独立的过程,导致在处理具有挑战性的数据时,固定的自表示矩阵会导致次优的聚类结果;另外,自表示矩阵的质量对聚类结果的准确性至关重要。针对上述问题,提出一种统一框架的增强深度子空间聚类方法。首先,通过将特征学习、自表示学习和指标学习集成在一起同时优化所有参数,根据数据的特征动态地学习自表示矩阵,确保准确地捕捉数据特征;其次,为了提高自表示学习的效果,提出类原型伪标签学习,为特征学习和指标学习提供自监督信息,进而促进自表示学习;最后,为了增强嵌入表示的判别能力,引入正交性约束帮助实现自表示属性。实验结果表明,与AASSC(Adaptive Attribute and Structure Subspace Clustering network)相比,所提方法在MNIST、UMIST、COIL20数据集上的聚类准确率分别提升了1.84、0.49、0.34个百分点。可见,所提方法提高了自表示矩阵学习的准确性,聚类效果更好。 展开更多
关键词 深度子空间 自表示学习 指标学习 亲和矩阵 正交约束
下载PDF
上一页 1 2 116 下一页 到第
使用帮助 返回顶部