期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
基于混合概率潜在语义分析模型的Web聚类 被引量:2
1
作者 王治和 王凌云 +1 位作者 党辉 潘丽娜 《计算机应用》 CSCD 北大核心 2012年第11期3018-3022,共5页
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H-PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLS... 在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H-PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型,通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H-PLSA模型和页面聚类的H-PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k-medoids算法。设计并构建了H-PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。 展开更多
关键词 web聚类 概率潜在语义分析 潜在主题 k-medoids算法
下载PDF
基于Zipf定律的二值化Web聚类算法研究
2
作者 王荣 孙爱民 吴坤芳 《河南科学》 2012年第3期345-347,共3页
分析Web聚类,并针对Web用户聚类提出了使用二值属性描述对象.利用Zipf定律将时间属性进行二值化,然后采用ROCK算法进行聚类.通过实验证明,以Zipf定律为准则的ROCK算法具有很好的聚类效果.
关键词 web聚类 Zipf定律 二值属性 ROCK算法
下载PDF
基于关联规则的多层次Web聚类法研究
3
作者 李尊朝 《计算机应用研究》 CSCD 北大核心 2004年第5期35-37,共3页
提出了基于关联规则的多层次、超图分割聚类方法,用于对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析;在挖掘出满足一定Support的关联规则的基础上进行聚类,仅将高度相关的网页和用户... 提出了基于关联规则的多层次、超图分割聚类方法,用于对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析;在挖掘出满足一定Support的关联规则的基础上进行聚类,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。 展开更多
关键词 关联规则 web聚类 超图 层次图
下载PDF
一种混合粒子群优化模型的Web聚类方法 被引量:1
4
作者 李世威 王建强 《计算机应用研究》 CSCD 北大核心 2010年第9期3259-3262,共4页
通过分析在电子商务环境下Web挖掘的现状,考虑到Web数据的海量性和高维度性对抽取隐含的、事先未知的知识所带来的复杂性和维数灾,在普通K均值聚类、PSO聚类和K均值与PSO混合聚类算法的基础上,提出了一种将主成分分析与PSO混合聚类算法... 通过分析在电子商务环境下Web挖掘的现状,考虑到Web数据的海量性和高维度性对抽取隐含的、事先未知的知识所带来的复杂性和维数灾,在普通K均值聚类、PSO聚类和K均值与PSO混合聚类算法的基础上,提出了一种将主成分分析与PSO混合聚类算法相结合的模型来对Web服务器中的日志文件进行聚类分析,将抽取的相关Web数据进行主成分分析,分析结果作为PSO混合聚类算法的输入数据,这样不仅减少了输入变量的维数,减少聚类的规模,而且保留了原始变量的主要信息,消除变量之间的多重共线性,为具有海量性、高维度性、异构性等特点的Web数据聚类提供一种有效的模型方法。 展开更多
关键词 主成分分析 K均值 粒子群优化 混合粒子群 web聚类 维数灾
下载PDF
基于模糊粗糙近似的web浏览模式的聚类 被引量:3
5
作者 吴瑞 宁玉富 郭长友 《系统工程学报》 CSCD 北大核心 2010年第1期132-136,144,共6页
提出一种模糊的粗糙近似法用于对web日志中的用户浏览模式进行聚类.在聚类过程中,一个网页是否被访问反映了用户的浏览兴趣,一个网页上的浏览时间反映了用户浏览兴趣的程度,它被刻画成模糊语言变量以忽略时间值之间的细小差别.每个用户... 提出一种模糊的粗糙近似法用于对web日志中的用户浏览模式进行聚类.在聚类过程中,一个网页是否被访问反映了用户的浏览兴趣,一个网页上的浏览时间反映了用户浏览兴趣的程度,它被刻画成模糊语言变量以忽略时间值之间的细小差别.每个用户浏览模式被表示成等长的模糊向量的形式以表示该用户访问过的网页及网页上的浏览时间.最后使用粗糙近似的方法对这些表示用户浏览模式的模糊向量进行聚类.这种方法可以把具有相似浏览行为的用户聚成一类. 展开更多
关键词 web聚类 模糊变量 粗糙变量 用户浏览模式
下载PDF
基于兴趣度的Web用户聚类方法 被引量:1
6
作者 袁冠 夏士雄 +2 位作者 张磊 李月娥 肖经验 《微电子学与计算机》 CSCD 北大核心 2008年第9期112-114,共3页
现有的Web用户聚类方法都是通过对用户喜好页面的访问模式分析来建立用户聚类,没有充分考虑时间意识、用户兴趣、用户访问模式之间的关系与影响.针对这一问题,在时间意识的Web用户聚类基础之上,提出了基于兴趣度的Web用户聚类方法.通过... 现有的Web用户聚类方法都是通过对用户喜好页面的访问模式分析来建立用户聚类,没有充分考虑时间意识、用户兴趣、用户访问模式之间的关系与影响.针对这一问题,在时间意识的Web用户聚类基础之上,提出了基于兴趣度的Web用户聚类方法.通过对日志文件中的用户访问模式进行分析,计算用户兴趣度.结合渐进遗忘算法,对用户兴趣爱好进行调整与更新,并在此基础上对用户进行聚类.实验表明,本方法能够更好地分析用户访问模式,更准确地计算用户兴趣,具有更好的聚类效果. 展开更多
关键词 web挖掘 web聚类 兴趣度 访问模式 遗忘机制
下载PDF
Web模糊聚类方法及其应用 被引量:7
7
作者 刘茂福 何炎祥 彭敏 《计算机科学》 CSCD 北大核心 2005年第1期155-158,共4页
本文提出了Web模糊聚类的概念,给出了Web模糊聚类的过程模型WFCM并进行了详细阐述,论述了Web模糊聚类在Web访问信息挖掘中,尤其是在Web用户聚类和Web页面聚类方面的应用,最后用实例证明了在Web页面聚类中使用Web模糊聚类的可行性。
关键词 web模糊方法 web数据挖掘 WUM WFCM 可行性 web页面
下载PDF
基于关联规则的Web文档聚类算法 被引量:41
8
作者 宋擒豹 沈钧毅 《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看... Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 展开更多
关键词 产联规则 WWW web文档算法 数据挖掘 数据库
下载PDF
基于改进近邻传播算法的Web用户聚类 被引量:6
9
作者 冷亚军 梁昌勇 陆文星 《情报学报》 CSSCI 北大核心 2012年第9期993-997,共5页
随着Intemet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显。Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的。对于处理大规模的数据集。近邻传播算法是一种快速、有效的聚... 随着Intemet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显。Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的。对于处理大规模的数据集。近邻传播算法是一种快速、有效的聚类方法。但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类。本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类。根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类。实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能。 展开更多
关键词 web用户 稀疏性 近邻传播算法 相似度矩阵
下载PDF
基于时间序列和任务调度的Web数据聚类算法 被引量:4
10
作者 王向华 陈特放 +1 位作者 张必明 颜剑 《计算机工程与应用》 CSCD 北大核心 2016年第9期159-163,共5页
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和任务调度的Web数据聚类算法,该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法,通过数据压缩的形式降低Web数据的复杂性,... 为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和任务调度的Web数据聚类算法,该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法,通过数据压缩的形式降低Web数据的复杂性,进行基于服务时间相似性的时间序列数据聚类。针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。实验仿真结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,提出的算法在聚类时间、聚类精度、服务执行成功率上均获得了更好的效果。 展开更多
关键词 web数据 时间序列 任务调度
下载PDF
Web用户聚类算法 被引量:5
11
作者 周宽久 王艳萍 李瑶 《计算机工程与应用》 CSCD 北大核心 2006年第16期184-186,221,共4页
Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行... Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行变换生成对角矩阵或下三角矩阵,该矩阵中的每一个子对角阵即对应一个用户类,矩阵的左下角对应各用户类之间的关系。 展开更多
关键词 web用户 相似矩阵 结构分解 模糊
下载PDF
一种面向领域的Web服务语义聚类方法 被引量:5
12
作者 赵一 李昭 +2 位作者 陈鹏 何泾沙 何克清 《小型微型计算机系统》 CSCD 北大核心 2019年第1期81-88,共8页
目前,互联网中发布的Web服务大都通过自然语言进行描述,这种非结构化的描述方式为机器进行自动分析与处理带来了极大的困难.如何提高服务发现的效率和精确率,已成为服务计算领域的研究热点之一.服务聚类是服务发现的重要支撑技术,通过... 目前,互联网中发布的Web服务大都通过自然语言进行描述,这种非结构化的描述方式为机器进行自动分析与处理带来了极大的困难.如何提高服务发现的效率和精确率,已成为服务计算领域的研究热点之一.服务聚类是服务发现的重要支撑技术,通过将语义相似的服务加以聚类和组织,有助于改进服务发现的效果.当前的服务聚类技术主要采用LDA(潜式狄里克雷分布)和K-means等模型在同一领域下进行工作,利用这些方法进行服务聚类时还存在一定的局限性,例如,未充分利用词汇间的语义关系进行降维,从而导致服务发现的效果不够理想.针对该问题,本文使用神经网络模型(word2vec模型)获得服务描述中的同义词表并生成领域特征词集,来最大限度的降低服务特征向量维度;在此基础上,提出S-LDA(Semantic Latent Dirichlet Allocation)模型对同一领域的服务进行聚类,由此构建了一个面向领域的Web服务聚类框架(Domain Semantic aided Web Service Clustering,DSWSC).在ProgrammableWeb网站上发布的服务数据集开展的实验表明,与LDA和K-means等方法相比,本文方法在熵、聚类纯度和F指标上均取得了明显效果,有助于提高服务搜索的准确率. 展开更多
关键词 语义潜式狄里克雷分布 Word2vec web服务
下载PDF
基于主题的Web文档聚类研究 被引量:31
13
作者 孙学刚 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚... 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 展开更多
关键词 计算机应用 中文信息处理 web文档 OPTICS算法 特征提取 K近邻准则 二次特征提取和的方法
下载PDF
基于蚁群算法与K-means算法相结合的Web用户聚类 被引量:4
14
作者 凌海峰 刘业政 杨善林 《情报学报》 CSSCI 北大核心 2009年第1期105-108,共4页
Web用户聚类是指用聚类算法产生用户会话的聚类,是电子商务中的一个重要问题。该问题的难度在于有成千上万的会话需要聚类,而且每个会话都可描述为一个高维向量。此外,该问题就聚类的数目而言具有指数的复杂性,是一个NP-难的问题。... Web用户聚类是指用聚类算法产生用户会话的聚类,是电子商务中的一个重要问题。该问题的难度在于有成千上万的会话需要聚类,而且每个会话都可描述为一个高维向量。此外,该问题就聚类的数目而言具有指数的复杂性,是一个NP-难的问题。本文提出一种新的聚类方法,该方法将蚁群算法与K-means算法相结合对用户会话进行优化聚类。实验结果表明,与K—means算法相比,该方法在Web导航推荐的应用中具有更好的性能。 展开更多
关键词 web使用挖掘 蚁群优化 web用户 web导航推荐 电子商务
下载PDF
一种新的Web事务模糊聚类算法的研究 被引量:12
15
作者 邢东山 宋擒豹 沈钧毅 《西安交通大学学报》 EI CAS CSCD 北大核心 2002年第8期822-825,838,共5页
提出了一种新的Web事务模糊聚类算法 .首先 ,在Web日志预处理后建立Web站点用户访问矩阵 ,矩阵元素为用户访问离散化时间 ,在此基础上进行Web事务群体的模糊聚类 ,最后对在线的活动Web事务进行类别归属 .经实验证明 ,该算法比已有的算... 提出了一种新的Web事务模糊聚类算法 .首先 ,在Web日志预处理后建立Web站点用户访问矩阵 ,矩阵元素为用户访问离散化时间 ,在此基础上进行Web事务群体的模糊聚类 ,最后对在线的活动Web事务进行类别归属 .经实验证明 ,该算法比已有的算法准确性高 ,运行时间少 ,扩展性好 ,它可以广泛地应用于电子商务领域 ,如个性化Web和Web推荐系统等 . 展开更多
关键词 web事务模糊算法 离散化时间 web使用挖掘 web日志 用户访问矩阵 模糊相似矩阵
下载PDF
基于MapReduce的Web标签SOINN聚类算法 被引量:3
16
作者 王洁 于颜硕 +1 位作者 周宽久 侯刚 《计算机科学》 CSCD 北大核心 2014年第12期197-201,共5页
Web标签有助于用户根据自己特定的兴趣完成信息资源的分类、组织和检索。然而,正是由于协同标记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类和检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题... Web标签有助于用户根据自己特定的兴趣完成信息资源的分类、组织和检索。然而,正是由于协同标记系统特有的公开性、自由化的特点,采用其对信息资源进行描述、组织、分类和检索,存在着信息描述不精确、标签组织混乱和标签语意模糊等问题。在此背景下提出了3种基于特征向量表示法(FVR)的Web标签SOINN聚类算法:基于资源的特征向量表示法、基于其他共现标签的特征向量表示法和基于全集共现标签的特征向量表示法。同时应用MapReduce框架将SOINN算法进行并行化。实验表明,当类中心数量超过2000时,3种分布式聚类FVR算法的召回率和准确度优于原始算法,可获得很好的加速比。从而证明此分布式聚类算法具有很好的可扩展性,可以用于更为海量的Web日志聚类分析系统。 展开更多
关键词 web标签 SOINN算法 MAPREDUCE
下载PDF
基于语义相似度的Web文档聚类算法 被引量:3
17
作者 李毅 王浩 杨静 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第12期1846-1850,共5页
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类... 文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。 展开更多
关键词 web文档 语义相似度 算法 最小树
下载PDF
快速混合Web文档聚类 被引量:3
18
作者 杨瑞龙 朱庆生 谢洪涛 《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量... 提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 展开更多
关键词 算法 K-MEANS算法 后缀树 web文档 基于短语的相似度
下载PDF
一种新的加权后缀树Web文档聚类方法 被引量:2
19
作者 杨瑞龙 朱庆生 +1 位作者 谢洪涛 屈洪春 《系统仿真学报》 CAS CSCD 北大核心 2011年第3期474-479,共6页
针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀... 针对Web文档的结构及其特征,提出了一种新的加权后缀树聚类方法WSTC。首先,根据Web文档的HTML标签,把文档划分为具备不同重要性等级的段,段划分成句子,句子分割为词。其次,用句子替代文档构造后缀树,把其重要性等级作为结构权融入后缀树的节点,形成文档集的加权后缀树模型。最后,在选择和合并基类过程中,综合利用节点包含的文档数、句子数、短语长度和结构权。仿真实验表明,WSTC算法比传统STC算法取得了更好的聚类效果。 展开更多
关键词 后缀树 后缀树 web文档 web文档结构 权重计算
下载PDF
基于模糊概念格的Web搜索结果聚类算法 被引量:6
20
作者 黄健斌 姬红兵 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2005年第6期856-860,共5页
提出了一种模糊形式概念分析方法,给出了在对象和属性的模糊二元关系上生成模糊概念格的过程.提出了一种在格的拓扑序列上进行概念聚类的快速算法,并且定义了概念聚类间基于偏序的层次关系.该方法利用格理论解决了概念聚类中概念间的多... 提出了一种模糊形式概念分析方法,给出了在对象和属性的模糊二元关系上生成模糊概念格的过程.提出了一种在格的拓扑序列上进行概念聚类的快速算法,并且定义了概念聚类间基于偏序的层次关系.该方法利用格理论解决了概念聚类中概念间的多重继承关系,应用在W eb搜索结果聚类上,实验结果表明算法在聚类质量和检索性能上都有改进和提高. 展开更多
关键词 模糊概念格 概念 web搜索结果
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部