期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
结合语义改进的K-means短文本聚类算法 被引量:14
1
作者 邱云飞 赵彬 +1 位作者 林明明 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第19期78-83,共6页
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集... 针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 展开更多
关键词 文本挖掘 短文本聚类 K-MEANS算法 最大频繁词集 知网 语义相似度
下载PDF
关联规则挖掘中最大频繁集的双向查找算法 被引量:5
2
作者 宋雨 赵建利 王保义 《华北电力大学学报(自然科学版)》 CAS 北大核心 2005年第2期67-70,共4页
在事务数据库中挖掘关联规则已成为数据挖掘领域的一个重要研究课题,而其中频繁项集的查找时间是影响挖掘效率的关键因素。基于Apriori算法,根据最大频繁集的双向查找算法,提出了算法的实现步骤,让两个方向的剪枝工作实现信息共享,加快... 在事务数据库中挖掘关联规则已成为数据挖掘领域的一个重要研究课题,而其中频繁项集的查找时间是影响挖掘效率的关键因素。基于Apriori算法,根据最大频繁集的双向查找算法,提出了算法的实现步骤,让两个方向的剪枝工作实现信息共享,加快最大频繁集的查找速度,节省I/O操作时间,并且通过实例和仿真实验验证了算法的高效性。 展开更多
关键词 事务数据库 关联规则 数据挖掘 最大频繁集 双向查找算法
下载PDF
挖掘最大频繁项集的事务集迭代算法 被引量:3
3
作者 陈波 王乐 董鹏 《计算机工程与应用》 CSCD 北大核心 2009年第6期141-144,共4页
发现最大频繁项目集是数据挖掘应用中的关键问题;提出一种新的基于事务集迭代的求最大频繁项集算法,该算法在每次迭代时,通过对输入事务集的两次扫描,生成所有阶数的候选项集和频繁项集;每次迭代后又生成新的事务集作为下一次迭代的输入... 发现最大频繁项目集是数据挖掘应用中的关键问题;提出一种新的基于事务集迭代的求最大频繁项集算法,该算法在每次迭代时,通过对输入事务集的两次扫描,生成所有阶数的候选项集和频繁项集;每次迭代后又生成新的事务集作为下一次迭代的输入,而候选最大频繁项集集合则随着迭代不断地趋于完整。该算法不需要生成K-1阶候选项集或频繁树,有别于已有的经典算法;同时由于用于迭代的事务集的数据量会快速缩减,从而也可有效降低算法的时间复杂度。实验表明在大数据量和小最小支持度时该算法更为有利。 展开更多
关键词 最大频繁项集 候选项集 事务集 迭代
下载PDF
基于时态约束的关联规则挖掘算法 被引量:13
4
作者 张令杰 徐维祥 《计算机工程》 CAS CSCD 2012年第5期50-52,共3页
分析时态约束关联规则挖掘的TCAR算法,针对其在挖掘频繁时态项集时效率较低的问题,提出一种基于时态约束的关联规则挖掘算法。该算法对源数据库进行处理,缩减存储空间,并在更新挖掘最大频繁项集算法基础上,挖掘最大频繁时态项集。实例... 分析时态约束关联规则挖掘的TCAR算法,针对其在挖掘频繁时态项集时效率较低的问题,提出一种基于时态约束的关联规则挖掘算法。该算法对源数据库进行处理,缩减存储空间,并在更新挖掘最大频繁项集算法基础上,挖掘最大频繁时态项集。实例分析结果表明,该算法能提高整体挖掘效率。 展开更多
关键词 时态约束 关联规则 TCAR算法 时间阈值 最大频繁时态项集 候选项集
下载PDF
关联规则中最大频繁项目集的研究 被引量:3
5
作者 李清峰 杨路明 张晓峰 《计算机应用研究》 CSCD 北大核心 2005年第1期93-95,98,共4页
研究了大型事务数据库中关联规则的频繁集问题;提出一种高效挖掘最大频繁集的新算法MMFI。该算法采用按事务数的层次和候选频繁集的维数处理的策略,经数学证明和实验分析,能大大减少判断运算量。
关键词 数据挖掘 关联规则 最大频繁集 数据库扫描法 频繁树法
下载PDF
关联规则最大频繁项目集的快速发现算法 被引量:10
6
作者 刘大有 刘亚波 尹治东 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第2期212-215,共4页
提出一种快速发现最大频繁项目集的算法,该算法对集合枚举树进行改进,结合自底向上与自顶向下的搜索策略,利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了不必要候选最大频繁项目集的数量,显著提高了发现的效率.
关键词 关联规则 最大频繁项目集 快速发现算法 集合枚举树 自底向上 自顶向下 数据挖掘
下载PDF
加权最大频繁项目集挖掘算法 被引量:2
7
作者 杨君锐 兰天 刘南艳 《微电子学与计算机》 CSCD 北大核心 2008年第6期123-126,共4页
关联规则是数据挖掘领域的一个重要分支,而发现最大频繁项目集是关联规则挖掘中的重要问题.最大频繁项目集挖掘是在数据库中各属性之间是平等的情况下进行的,但现实中并非如此.频繁模式树(Frequent Pattern Tree,FP-Tree)已不能满足要求... 关联规则是数据挖掘领域的一个重要分支,而发现最大频繁项目集是关联规则挖掘中的重要问题.最大频繁项目集挖掘是在数据库中各属性之间是平等的情况下进行的,但现实中并非如此.频繁模式树(Frequent Pattern Tree,FP-Tree)已不能满足要求.为此提出了一个有效的基于加权FP-Tree的加权最大频繁项目集挖掘算法,其挖掘过程中不需要产生候选项目集.并通过实例说明了此算法的挖掘过程.实验结果表明此算法是有效的并且有较好的扩展性. 展开更多
关键词 数据挖掘 关联规则 加权最大频繁项目集
下载PDF
基于云南气象数据的空间关联规则挖掘 被引量:8
8
作者 何婧 王丽珍 邹力鹍 《计算机工程与应用》 CSCD 北大核心 2003年第34期187-190,共4页
空间关联规则挖掘可以深入发现现实世界大量空间谓词和非空间谓词之间的特定空间关系。论文结合气象数据的特点和已有传统关联规则挖掘算法的优点,针对云南气象数据提出了一种基于项目序列集的空间关联规则挖掘算法。通过严格的算法分... 空间关联规则挖掘可以深入发现现实世界大量空间谓词和非空间谓词之间的特定空间关系。论文结合气象数据的特点和已有传统关联规则挖掘算法的优点,针对云南气象数据提出了一种基于项目序列集的空间关联规则挖掘算法。通过严格的算法分析和具体实验表明,该算法是有效、可行的。 展开更多
关键词 空间数据挖掘 空间关联规则 项目序列集 最大频繁项目集
下载PDF
基于向量矩阵的频繁项集挖掘算法 被引量:2
9
作者 田宏 董爱杰 《大连交通大学学报》 CAS 2008年第3期74-77,共4页
为减少冗余候选项集的产生,提出了一种基于向量矩阵的频繁项集挖掘算法FIS-Miner.在该算法中,将所有频繁1-项集按支持度升序进行排序并存储其对应的二进制位向量,将这些二进制位向量映射到向量矩阵进行分析找出所有的频繁项集,既实现了... 为减少冗余候选项集的产生,提出了一种基于向量矩阵的频繁项集挖掘算法FIS-Miner.在该算法中,将所有频繁1-项集按支持度升序进行排序并存储其对应的二进制位向量,将这些二进制位向量映射到向量矩阵进行分析找出所有的频繁项集,既实现了数据库的一次扫描又避免了大量候选项集的产生.探讨了该算法的实现步骤,并给出实例验证了该算法的有效性. 展开更多
关键词 二进制位向量 向量矩阵 频繁项集 最大频繁项集
下载PDF
基于句子级最大频繁单词集的Web文档聚类研究 被引量:1
10
作者 路松峰 陈云开 袁莉 《计算机科学》 CSCD 北大核心 2007年第7期154-157,164,共5页
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,... Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。 展开更多
关键词 WEB文档聚类 粗糙集 关联规则 最大频繁单词集
下载PDF
MFPSM:基于双向约束的极大频繁页面集挖掘算法 被引量:1
11
作者 任家东 张啸剑 彭慧丽 《计算机工程与应用》 CSCD 北大核心 2007年第4期190-193,共4页
挖掘极大频繁页面集是WEB使用挖掘中的关键应用之一。由于一定时间段的会话中蕴含着用户的访问模式与访问动机,设计一种结点带有驻留时间,类似FP-tree的频繁页面树FPDT-tree结构;利用FPDT-tree结构存储双向驻留时间约束的会话数据库,简... 挖掘极大频繁页面集是WEB使用挖掘中的关键应用之一。由于一定时间段的会话中蕴含着用户的访问模式与访问动机,设计一种结点带有驻留时间,类似FP-tree的频繁页面树FPDT-tree结构;利用FPDT-tree结构存储双向驻留时间约束的会话数据库,简化挖掘过程中驻留时间阈值的设置。基于FPDT-tree提出算法MFPSM挖掘会话中的极大频繁页面集,实验结果表明,在时间约束环境中,通过决策者给出合适的时间约束阈值,该算法可以有效地缩短挖掘极大频繁页面集的时间。 展开更多
关键词 极大频繁页面集 会话 驻留时间 频繁页面树
下载PDF
快速开采最大频繁项目集 被引量:5
12
作者 宋海声 《计算机应用研究》 CSCD 北大核心 2004年第3期45-46,共2页
对Pincer Search进行了改进,提出了一种新的发现最大频繁项目集的WDMFS算法。由于WDMFS算法采用了位阵存储技术和自底向上、自顶向下双向搜索策略,从而进一步提高了算法的效率,显著降低了系统的I/O成本和CPU时间。
关键词 数据挖掘 关联规则 频繁项目集 最大频繁项目集 位阵 集合枚举树
下载PDF
基于最大频繁项目序列集挖掘DMFIA算法的改进 被引量:1
13
作者 宋卫林 徐惠民 《计算机工程与设计》 CSCD 北大核心 2007年第7期1493-1496,1500,共5页
为了有效地解决客户序列视图数据库的数据挖掘问题,借鉴了关联规则挖掘最大频繁项目集DMFIA算法的相关思想。详细阐述了该算法,针对原算法不能有效地解决客户序列视图数据库的数据挖掘这一问题,在原算法的基础上结合序列模式提出了改进... 为了有效地解决客户序列视图数据库的数据挖掘问题,借鉴了关联规则挖掘最大频繁项目集DMFIA算法的相关思想。详细阐述了该算法,针对原算法不能有效地解决客户序列视图数据库的数据挖掘这一问题,在原算法的基础上结合序列模式提出了改进的DMFIA算法,并在原算法的基础上有了较大的改进。为了验证算法的正确性,运用Ora-cle9i数据库的PL/SQL进行了相应的验证。实验结果证实了改进算法的有效性和实用性,并具有较好的创新性和理论价值。 展开更多
关键词 数据挖掘 关联规则 序列模式 DMFIA算法 最大频繁项目集 最大频繁项目序列集
下载PDF
一种改进的频繁模式树生长算法 被引量:2
14
作者 连志春 伊凤新 《应用科技》 CAS 2008年第6期47-51,共5页
针对垂直数据分布数据库FP-tree生长基本算法中存在的链接点表空间随问题规模线性增加的问题提出一种改进算法.采用定长的链接点表进行分段扫描,在空间需求恒定的前提下构造FP-tree.证明了改进算法与基本算法构造的FP-tree是同构的.实... 针对垂直数据分布数据库FP-tree生长基本算法中存在的链接点表空间随问题规模线性增加的问题提出一种改进算法.采用定长的链接点表进行分段扫描,在空间需求恒定的前提下构造FP-tree.证明了改进算法与基本算法构造的FP-tree是同构的.实验与分析结果表明,当应用于同一数据集时,改进算法所需空间恒定. 展开更多
关键词 数据挖掘 最大频繁项目集 关联规则 频繁模式树
下载PDF
极大有序频繁项目集的时间属性分析方法 被引量:3
15
作者 王宁 杨扬 +2 位作者 由海涌 赵耀培 孟坤 《小型微型计算机系统》 CSCD 北大核心 2013年第1期120-124,共5页
利用极大团把海量的数据项进行有效的划分,降低了后续数据挖掘和决策选择的复杂度.对于含有时间参量的原始数据,极大团具有一定的时域特性,挖掘其时间特性将进一步提高决策的准确度并可以减少分析数据的规模,降低对计算资源的需求.因此... 利用极大团把海量的数据项进行有效的划分,降低了后续数据挖掘和决策选择的复杂度.对于含有时间参量的原始数据,极大团具有一定的时域特性,挖掘其时间特性将进一步提高决策的准确度并可以减少分析数据的规模,降低对计算资源的需求.因此,在提出一种求极大有序频繁项目集算法的基础上,给出一种挖掘极大有序频繁项目集时间属性的方法.在时间并范围内实施搜索极大频繁项目集保证了搜索结果的无遗漏性,并以此为基础,通过定义频繁项目集关键时间段,较好地解释了极大频繁项目集的时间属性;通过实际数据验证了所给出方法的可行性和有效性. 展开更多
关键词 数据挖掘 时序逻辑 极大团 关键时间段 频繁项目集
下载PDF
基于改进FP-Tree的最大频繁项集高效挖掘算法 被引量:3
16
作者 纪怀猛 《计算机与数字工程》 2014年第6期959-963,共5页
基于FP-Tree的FP-Max算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-Tree的最大频繁集快速挖掘算法—FP-EMax算法。该算法无需建立条件模式库大大减少了存储空间... 基于FP-Tree的FP-Max算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-Tree的最大频繁集快速挖掘算法—FP-EMax算法。该算法无需建立条件模式库大大减少了存储空间开销,采用预剪枝策略减少条件模式树的构造次数及子集检测次数,从而算法的挖掘效率大大提高。最后通过实验证明FP-EMax算法在支持度较小的情况下较之于FP-Max及同类算法具有更好的性能。 展开更多
关键词 递归 最大频繁集 FP-TREE 条件模式树 索引
下载PDF
基于集合枚举树的最小预测集挖掘算法
17
作者 张军 陈凯明 《计算机工程》 CAS CSCD 北大核心 2008年第9期76-77,80,共3页
为缩减关联规则存储空间和方便查询关联规则,提出一种前件为单一项目的最小预测集算法。利用集合枚举树找到最大频繁项目集,据此来挖掘最小预测集。对规则扩展的有效性进行证明。实验结果表明,通过该算法得到的最小预测集比传统方法小1... 为缩减关联规则存储空间和方便查询关联规则,提出一种前件为单一项目的最小预测集算法。利用集合枚举树找到最大频繁项目集,据此来挖掘最小预测集。对规则扩展的有效性进行证明。实验结果表明,通过该算法得到的最小预测集比传统方法小1个数量级。 展开更多
关键词 关联规则 集合枚举树 最小预测集 最大频繁集
下载PDF
一种关联规则挖掘算法的改进与研究 被引量:2
18
作者 徐剑 曾勍炜 邓庚胜 《微计算机信息》 2009年第30期129-130,106,共3页
通过对Apriori算法基本思想的研究,针对Apriori算法的一些不足之处提出了一种改进的关联规则挖掘算法。算法通过布尔矩阵的位与运算实现频繁项集的连接,并考虑当其布尔矩阵可能存在是稀疏矩阵的情况,对其矩阵进行压缩,以提高算法效率。... 通过对Apriori算法基本思想的研究,针对Apriori算法的一些不足之处提出了一种改进的关联规则挖掘算法。算法通过布尔矩阵的位与运算实现频繁项集的连接,并考虑当其布尔矩阵可能存在是稀疏矩阵的情况,对其矩阵进行压缩,以提高算法效率。算法通过设置标志位得到所有的最大频繁项集,从而得到最终的频繁项集。 展开更多
关键词 关联规则 最大频繁项集 矩阵压缩
下载PDF
基于相关集合的事务数据库挖掘
19
作者 陈莉 钱伟 吴建乐 《广西工学院学报》 CAS 2004年第1期35-39,共5页
基于相关集合事务数据库这一挖掘思想,提出一个新的方法——寻找最大频繁集。并通过理论与事例分析了这一方法的可行性和正确性。
关键词 事务数据库 最大频繁项 相关集合 信任度 支持度 集合映射
下载PDF
一种基于FP-tree的最大频繁项目集挖掘算法 被引量:1
20
作者 梅俊 郑刚 《现代计算机》 2009年第9期33-36,共4页
提出一种基于FP-tree的最大频繁项目挖掘算法DMFIA-D,该算法运用双向搜索策略,根据FP-tree构造特征自顶向下选取最大频繁候选项集,自底向上对候选项集进行计数、剪枝最终确定最大频繁项目集。由于减少了最大频繁候选集,并对候选集进行... 提出一种基于FP-tree的最大频繁项目挖掘算法DMFIA-D,该算法运用双向搜索策略,根据FP-tree构造特征自顶向下选取最大频繁候选项集,自底向上对候选项集进行计数、剪枝最终确定最大频繁项目集。由于减少了最大频繁候选集,并对候选集进行有效剪枝,从而缩短算法的挖掘时间,提高挖掘效率。 展开更多
关键词 数据挖掘 关联规则 最大频繁项目集 FP-TREE
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部