期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
Scaling up Kernel Grower Clustering Method for Large Data Sets via Core-sets 被引量:2
1
作者 CHANG Liang DENG Xiao-Ming +1 位作者 ZHENG Sui-Wu WANG Yong-Qing 《自动化学报》 EI CSCD 北大核心 2008年第3期376-382,共7页
核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这... 核栽培者是聚类最近 Camastra 和 Verri 建议的方法的一个新奇的核。它证明为各种各样的数据的好性能关于流行聚类的算法有利地设定并且比较。然而,方法的主要缺点是在处理大数据集合的弱可伸缩能力,它极大地限制它的应用程序。在这份报纸,我们用核心集合建议一个可伸缩起来的核栽培者方法,它是比为聚类的大数据的原来的方法显著地快的。同时,它能处理很大的数据集合。象合成数据集合一样的基准数据集合的数字实验显示出建议方法的效率。方法也被用于真实图象分割说明它的性能。 展开更多
关键词 大型数据集 图象分割 模式识别 磁心配置 核聚类
下载PDF
基于数据挖掘的大型邮轮船型特征及船型参数分析
2
作者 姚丹丽 《舰船科学技术》 北大核心 2024年第6期173-176,共4页
以确定大型邮轮的最优船型参数,提升邮轮的航行性能为目标,提出基于数据挖掘的大型邮轮船型特征及船型参数分析方法。利用模糊C均值聚类算法,聚类大型邮轮船型数据,挖掘大型邮轮船型特征。基于粗糙集理论,对大型邮轮船型特征挖掘结果约... 以确定大型邮轮的最优船型参数,提升邮轮的航行性能为目标,提出基于数据挖掘的大型邮轮船型特征及船型参数分析方法。利用模糊C均值聚类算法,聚类大型邮轮船型数据,挖掘大型邮轮船型特征。基于粗糙集理论,对大型邮轮船型特征挖掘结果约简处理,约简后船型特征对应的参数,作为船型性能优化的船型参数。利用自由变形方法,构建大型邮轮船型变换模型。依据船型参数变化,调整模型控制体的控制顶点,变化大型邮轮形状。利用回归分析方法,拟合船型变换模型中的船型参数,确定大型邮轮的最佳船型参数。实验结果表明,该方法可以精准挖掘大型邮轮船型特征,确定最佳船型参数。最佳船型参数下的邮轮阻力下降了1.48%,提升了大型邮轮的航行性能。 展开更多
关键词 数据挖掘 大型邮轮 船型特征 粗糙集 回归分析
下载PDF
Clustering method based on data division and partition 被引量:1
3
作者 卢志茂 刘晨 +2 位作者 S.Massinanke 张春祥 王蕾 《Journal of Central South University》 SCIE EI CAS 2014年第1期213-222,共10页
Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP... Many classical clustering algorithms do good jobs on their prerequisite but do not scale well when being applied to deal with very large data sets(VLDS).In this work,a novel division and partition clustering method(DP) was proposed to solve the problem.DP cut the source data set into data blocks,and extracted the eigenvector for each data block to form the local feature set.The local feature set was used in the second round of the characteristics polymerization process for the source data to find the global eigenvector.Ultimately according to the global eigenvector,the data set was assigned by criterion of minimum distance.The experimental results show that it is more robust than the conventional clusterings.Characteristics of not sensitive to data dimensions,distribution and number of nature clustering make it have a wide range of applications in clustering VLDS. 展开更多
关键词 聚类方法 分区 特征向量 聚类算法 就业机会 聚合过程 最小距离 数据集
下载PDF
基于单体到模组迁移的磷酸铁锂储能系统SOH评估方法 被引量:1
4
作者 杨智鹏 宋政湘 +1 位作者 孟锦豪 郑琨 《高电压技术》 EI CAS CSCD 北大核心 2023年第10期4142-4149,共8页
为了解决传统机器学习的电池健康状态(state of health,SOH)评估方法在应用于大规模电化学储能电站的应用场景时,存在的数据处理慢和评估效果差等问题,提出了一种基于单体到模组迁移的磷酸铁锂储能系统SOH评估方法。基于实验获取了磷酸... 为了解决传统机器学习的电池健康状态(state of health,SOH)评估方法在应用于大规模电化学储能电站的应用场景时,存在的数据处理慢和评估效果差等问题,提出了一种基于单体到模组迁移的磷酸铁锂储能系统SOH评估方法。基于实验获取了磷酸铁锂电池和电池组的老化数据集,构建了迁移学习的SOH评估模型框架,验证了小规模样本再训练模型的评估效果;测试了采用长短时记忆神经网络(long short-term memory networks,LSTM)和门控循环单元(gated recurrent unit,GRU)等模型的评估效果;对比了不同片段的短特征样本数据对评估结果的影响。研究结果证明,经过小规模样本数据优化后的电池单体模型能够实现对电池组SOH的评估;以GRU为主网络的迁移学习模型对电池组SOH的评估综合性能最优;采用电压区间为24.5~30 V片段短特征数据集的模型,能够进一步提高评估准确性和速度,对电池组SOH评估均方差可降低至0.1%,符合大规模储能电站场景下的使用需求。研究成果为电化学储能电站的运行状态评估方法提供可能的技术参考和数据支撑。 展开更多
关键词 迁移学习 磷酸铁锂电池 健康状态 小规模数据集 短样本特征 大规模电化学储能
下载PDF
基于YOLO框架的实时交通标志识别算法研究与系统实现 被引量:1
5
作者 金晓康 吴瑶 +1 位作者 施莹娟 沈才有 《软件》 2023年第1期20-23,共4页
道路交通标志识别受限于所处复杂的自然场景以及种类繁多等因素,目前少有实时性、准确性、稳定性等各方面均衡的识别系统。利用在工业中应用广泛的YOLO算法对交通标志进行识别,以满足实时性和稳定性;利用大规模的自标数据集对深度网络... 道路交通标志识别受限于所处复杂的自然场景以及种类繁多等因素,目前少有实时性、准确性、稳定性等各方面均衡的识别系统。利用在工业中应用广泛的YOLO算法对交通标志进行识别,以满足实时性和稳定性;利用大规模的自标数据集对深度网络重新训练,提升其泛化能力,保证识别准确性;将训练完成的深度网络部署在嵌入式设备JetsonTX2上,利用跨平台框架Qt实现交互式界面,使系统具备可应用性。该系统是一个通用平台,可支持不同高精度且高实时的网络模型的替换使用。 展开更多
关键词 智能交通系统 交通标志识别 深度网络 大规模数据集 嵌入式
下载PDF
一个新的强化学习多序列对比工具CDRL
6
作者 王韦添 江育娥 《福建师范大学学报(自然科学版)》 CAS 2023年第6期40-51,共12页
多序列比对(multiple sequence alignment, MSA)在生物信息学中是一项重要的研究领域,常被用于描述物种之间的进化关系、药物设计和药物开发.MSA是一个NP完全问题,因计算过于复杂,无法获得最优解.强化学习方法在MSA中表现出了优异的性能... 多序列比对(multiple sequence alignment, MSA)在生物信息学中是一项重要的研究领域,常被用于描述物种之间的进化关系、药物设计和药物开发.MSA是一个NP完全问题,因计算过于复杂,无法获得最优解.强化学习方法在MSA中表现出了优异的性能,但其计算复杂度与空间复杂度都很高,因此无法应用于大规模数据集.提出一种新的强化学习模型CDRL(contextual deep reinforcement learning)来解决多序列比对问题,该模型采用上下文关系,将网络输入维度从O(n2)降为O(n),其中n是输入的序列数量.该模型建立的网络收敛速度快于当前其他模型.实验结果表明,CDRL的性能优于业内其他强化学习MSA.相较于其他方法目前只能运行在12条序列数据上,CDRL成功地在100条序列上取得较快速度和较好性能.这提高了强化学习MSA应用在较大规模数据集上的可能性. 展开更多
关键词 多序列比对 强化学习 较大规模数据集 空间复杂度 上下文关系
下载PDF
基于关联规则的工业控制系统运维数据挖掘方法
7
作者 李军 《微型电脑应用》 2023年第9期167-170,共4页
大型工业控制系统中存在海量的运维数据,为了降低高维数据最大频繁项集对数据挖掘结果的影响,提升控制系统性能和环境安全,在关联规则的基础上,提出了一种新的数据挖掘方法。在给定的事务数据库中,通过不断改变数值,使得支持度和置信度... 大型工业控制系统中存在海量的运维数据,为了降低高维数据最大频繁项集对数据挖掘结果的影响,提升控制系统性能和环境安全,在关联规则的基础上,提出了一种新的数据挖掘方法。在给定的事务数据库中,通过不断改变数值,使得支持度和置信度始终保持最小值,保证关联规则为强关联;经过预处理,将数据转换为离散型数据,运用Apriori算法和DLG算法产生频繁项目集,构建关联图得到频繁项集。当不再产生新的项集时终止计算,所得项集即为最终的数据挖掘结果。在TEP仿真系统上展开实验,结果表明,所提方法可以准确挖掘到控制系统运行过程中的异常数据,并以明显的波动提醒工作人员及时查看。 展开更多
关键词 关联规则 大型工业控制系统 DLG算法 散型数据 频繁项目集
下载PDF
数据可视化技术的研究与进展 被引量:54
8
作者 任永功 于戈 《计算机科学》 CSCD 北大核心 2004年第12期92-96,共5页
可视化技术对于分析和探究大规模的多维数据集变得越来越重要。本文首先介绍了数据可视化的概念及其发展历程,然后分类、对比分析了已存在的可视化技术,最后对数据可视化技术的未来发展方向进行了探讨。
关键词 数据可视化 多维数据集 大规模 可视化技术 方向 对数 未来发展 概念 分类
下载PDF
基于机器学习的文本分类技术研究进展 被引量:383
9
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
下载PDF
基于格网划分的大数据集DEM三维可视化 被引量:36
10
作者 孙敏 薛勇 马蔼乃 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第6期566-570,共5页
提出基于格网划分的实时 L OD分层方法 ,该方法基于 DEM和影像数据固有的栅格特点 ,使用简单的几何算法即可实现 DEM数据的动态分层 ,计算量小 ,可实现对大数据集
关键词 格网划分 大数据集 DEM 三维可视化 地理信息系统
下载PDF
半监督的仿射传播聚类 被引量:29
11
作者 王开军 李健 +1 位作者 张军英 涂重阳 《计算机工程》 CAS CSCD 北大核心 2007年第23期197-198,201,共3页
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明... 仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。 展开更多
关键词 仿射传播聚类 半监督聚类 大数据集的聚类算法
下载PDF
基于最小包含球的大数据集快速谱聚类算法 被引量:16
12
作者 钱鹏江 王士同 +1 位作者 邓赵红 徐华 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2035-2041,共7页
GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal E... GRC(Graph-based Relaxed Clustering)是一种具有便捷性和自适应性的谱聚类算法,但对于大数据集,繁重的时间开销限制了其实用性.针对此不足,该文通过对GRC聚类指示向量进行约束并融合中心约束型最小包含球(Center-Constrained Minimal Enclosing Ball,CCMEB)理论提出了大数据集快速谱聚类算法CCMEB-CGRC.该算法继承GRC的便捷性和自适应性的同时又具有渐近线性时间复杂度的优点,从而较好地解决了大数据集快速有效谱聚类的问题.仿真实验的结果验证了该算法的有效性和快速性. 展开更多
关键词 谱聚类 大数据集 最小包含球 线性时间复杂度
下载PDF
一种聚簇消减大规模数据的支持向量分类算法 被引量:10
13
作者 陈光喜 徐健 成彦 《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删... 针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 展开更多
关键词 支持向量机 聚簇集 大规模数据集 训练速度
下载PDF
基于瓦片金字塔模型的海量空间数据快速分发方法 被引量:8
14
作者 殷君茹 侯瑞霞 +1 位作者 唐小明 罗鹏 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第6期1269-1274,共6页
针对分布式并行环境下海量空间数据的快速显示和浏览问题,提出一种基于分层、分专题的海量空间数据金字塔模型及基于数据库存储方案的瓦片数据快速分发方法.对比分析了瓦片数据在文件式管理和数据库管理两种模式下的存储机制和响应流程... 针对分布式并行环境下海量空间数据的快速显示和浏览问题,提出一种基于分层、分专题的海量空间数据金字塔模型及基于数据库存储方案的瓦片数据快速分发方法.对比分析了瓦片数据在文件式管理和数据库管理两种模式下的存储机制和响应流程,并以时间跨度59年的沙尘暴观测数据为例,验证了该方法不仅能有效地组织管理海量空间数据,实现高效数据互操作,而且在多用户并发访问时,能快速响应客户端请求. 展开更多
关键词 瓦片金字塔模型 海量空间数据 数据库 分布式并行环境
下载PDF
一种基于密度偏差抽样的孤立点检测算法 被引量:3
15
作者 余建桥 葛继科 李娅 《计算机科学》 CSCD 北大核心 2004年第10期206-208,共3页
孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法... 孤立点检测是一项有价值的、重要的知识发现任务。在对大规模数据集中的孤立点数据进行检测时,样本数据集的选择技术至关重要。本文提出了一种新的基于密度的偏差抽样技术作为数据约简的手段,并给出了基于密度偏差抽样的孤立点检测算法,该算法可以用来识别样本数据集低密度区域中的孤立点数据,并从理论和实验两个方面对其进行分析评估,分析与实践证明该算法是有效的。 展开更多
关键词 孤立点 检测算法 数据约简 大规模数据 知识发现 点检 识别 样本数据 区域 抽样
下载PDF
大规模点云数据的二维与三维混合索引方法 被引量:25
16
作者 王晏民 郭明 《测绘学报》 EI CSCD 北大核心 2012年第4期605-612,共8页
为提高点云查询效率和按需提取数据,提出一种二维与三维混合索引的大规模点云数据管理方法。采用二维四叉树和三维最小外包盒结构管理原始点云,以3D-R树管理多站点云,利用对象关系数据库管理全部点云模型和相关属性数据。利用古建筑大... 为提高点云查询效率和按需提取数据,提出一种二维与三维混合索引的大规模点云数据管理方法。采用二维四叉树和三维最小外包盒结构管理原始点云,以3D-R树管理多站点云,利用对象关系数据库管理全部点云模型和相关属性数据。利用古建筑大规模点云数据在微机上实现了点云模型的数据存储与可视化。结果表明本方法能够管理超过10 GB级的点云模型数据和十亿级有效点,数据可视化效率较高。 展开更多
关键词 地面激光雷达 大规模点云数据 空间索引 细节层次
下载PDF
基于多色集合理论的大型装备IETM数据模块创作技术 被引量:5
17
作者 姜洪权 王金宇 +2 位作者 高智勇 高建民 梁泽明 《计算机集成制造系统》 EI CSCD 北大核心 2015年第6期1536-1545,共10页
为实现多类型数据的高效组织与管理,解决开发交互式电子技术手册的关键问题,提出一种基于产品结构树的层次式多类型数据模块模型构建方法及交互式电子技术手册数据模块创作技术。对大型复杂装备的交互式电子技术手册数据形式及其特点进... 为实现多类型数据的高效组织与管理,解决开发交互式电子技术手册的关键问题,提出一种基于产品结构树的层次式多类型数据模块模型构建方法及交互式电子技术手册数据模块创作技术。对大型复杂装备的交互式电子技术手册数据形式及其特点进行了分析,根据数据模块与产品结构之间的映射关系,构造了一种层次式多类型数据模块模型;利用多色集合理论对其进行数学形式的统一描述,利用多色集合中的布尔矩阵来描述数据模块间、数据模块和产品结构间的相关关系,使之便于计算机的表达和操作,提高了交互式电子技术手册系统的数据模块管理效率和检索率。以典型大型装备压缩机组为例对所提方法进行了说明。 展开更多
关键词 多色集合 数据模块 产品结构树 交互式电子技术手册 大型装备
下载PDF
面向大规模数据的快速并行聚类划分算法研究 被引量:22
18
作者 牛新征 佘堃 《计算机科学》 CSCD 北大核心 2012年第1期134-137,151,共5页
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式... 随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。 展开更多
关键词 云计算 K-MEANS 大规模数据 MPI HADOOP
下载PDF
一种解决大规模数据集问题的核主成分分析算法 被引量:19
19
作者 史卫亚 郭跃飞 薛向阳 《软件学报》 EI CSCD 北大核心 2009年第8期2153-2159,共7页
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无... 提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无须使用特征分解即可迭代地计算出核主成分.该算法的空间复杂度只有O(m);在大规模数据集的情况下,时间复杂度也降低为O(pkm).实验结果表明了所提出算法的有效性.更为重要的是,在大规模数据集的情况下,当传统的特征分解技术无法使用时,该方法仍然可以提取非线性特征. 展开更多
关键词 核主成分分析 GRAM矩阵 大规模数据集 协方差无关 特征分解
下载PDF
大量空间数据可视化的算法 被引量:5
20
作者 冯玉才 刘嘉 《计算机工程》 CAS CSCD 北大核心 2003年第13期79-81,共3页
在大量应用中,空间数据的采集和使用都是通过其空间位置进行的。在大小有限的屏幕上显示大量的空间数据常会因为邻结点的高度重叠而导致较差的视觉效果。该文提出一种可视化大量空间数据的新方法。其主要思想就是用未被使用的像素点巧... 在大量应用中,空间数据的采集和使用都是通过其空间位置进行的。在大小有限的屏幕上显示大量的空间数据常会因为邻结点的高度重叠而导致较差的视觉效果。该文提出一种可视化大量空间数据的新方法。其主要思想就是用未被使用的像素点巧妙地代替重叠的数据点。介绍了两种解决方法:(1) 将重叠的数据点放置在最近的未被占用的像素点上;(2) 将数据点沿着屏幕填充曲线移动。接着,发展了一个更为成熟的方法叫栅格划分算法。最后,提出了一种有待进一步研究的新方法:基于最近邻接方法的聚类方法,并指出了今后研究的方向。 展开更多
关键词 可视化空间数据 可视化大数据集 数据库接口 像素点 数据点
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部