期刊文献+
共找到639篇文章
< 1 2 32 >
每页显示 20 50 100
基于K-means与Word2vec的哺乳文胸评论主题挖掘研究
1
作者 刘妍 刘驰 《人类工效学》 2024年第2期40-45,共6页
目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义... 目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义聚类、主题识别、主题词挖掘及主题重要度计算。结果哺乳文胸评论文本聚类后的主题重要程度排名是:产品品质(45.47%)、产品外观(35.83%)、产品服务(18.79%)。结论通过该方法能够有效的识别和构建哺乳文胸主题及主题词,同时,通过主题的重要程度,能够了解消费者对于网络平台购买哺乳文胸时关注的重点方向,为哺乳内衣企业进行产品改善及生产等提供理论参考。 展开更多
关键词 服装工程 文本聚类分析 哺乳文胸 在线评论 K-meanS Word2vec 主题挖掘 主题重要程度 文献计量分析
下载PDF
Similarity matrix-based K-means algorithm for text clustering
2
作者 曹奇敏 郭巧 吴向华 《Journal of Beijing Institute of Technology》 EI CAS 2015年第4期566-572,共7页
K-means algorithm is one of the most widely used algorithms in the clustering analysis. To deal with the problem caused by the random selection of initial center points in the traditional al- gorithm, this paper propo... K-means algorithm is one of the most widely used algorithms in the clustering analysis. To deal with the problem caused by the random selection of initial center points in the traditional al- gorithm, this paper proposes an improved K-means algorithm based on the similarity matrix. The im- proved algorithm can effectively avoid the random selection of initial center points, therefore it can provide effective initial points for clustering process, and reduce the fluctuation of clustering results which are resulted from initial points selections, thus a better clustering quality can be obtained. The experimental results also show that the F-measure of the improved K-means algorithm has been greatly improved and the clustering results are more stable. 展开更多
关键词 text clustering K-means algorithm similarity matrix F-MEASURE
下载PDF
最大距离法选取初始簇中心的K-means文本聚类算法的研究 被引量:109
3
作者 翟东海 鱼江 +2 位作者 高飞 于磊 丁锋 《计算机应用研究》 CSCD 北大核心 2014年第3期713-715,719,共4页
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实... 由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。 展开更多
关键词 K-meanS聚类算法 最大距离 文本聚类 文本距离 测度函数 F度量值
下载PDF
一种K-means改进算法的并行化实现与应用 被引量:50
4
作者 李晓瑜 俞丽颖 +1 位作者 雷航 唐雪飞 《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第1期61-68,共8页
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因... 随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。 展开更多
关键词 canopy算法 HADOOP MAPREDUCE 并行K—means 文本聚类
下载PDF
基于特征关联度的K-means初始聚类中心优化算法 被引量:29
5
作者 陈兴蜀 吴小松 +1 位作者 王文贤 王海舟 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2015年第1期13-19,共7页
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的... 针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用"或运算"合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合"最小最大"原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果。 展开更多
关键词 K-meanS 特征关联度 初始聚类中心 文本聚类
下载PDF
结合语义改进的K-means短文本聚类算法 被引量:14
6
作者 邱云飞 赵彬 +1 位作者 林明明 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第19期78-83,共6页
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集... 针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 展开更多
关键词 文本挖掘 短文本聚类 K-meanS算法 最大频繁词集 知网 语义相似度
下载PDF
一种改进K-means算法的聚类算法CARDBK 被引量:12
7
作者 朱烨行 李艳玲 +1 位作者 崔梦天 杨献文 《计算机科学》 CSCD 北大核心 2015年第3期201-205,共5页
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。从聚类结果的熵、纯度、F1值、Rand Index... CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比,该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。 展开更多
关键词 聚类 文档聚类 文本聚类 K-meanS 算法
下载PDF
聚类模式下一种优化的K-means文本特征选择 被引量:12
8
作者 刘海峰 刘守生 张学仁 《计算机科学》 CSCD 北大核心 2011年第1期195-197,共3页
文本特征降维是文本自动分类的核心技术。K-means方法是一种常用的基于划分的方法。针对该算法对类中心初始值及孤立点过于敏感的问题,提出了一种改进的K-means算法用于文本特征选择。通过优化初始类中心的选择模式及对孤立点的剔除,改... 文本特征降维是文本自动分类的核心技术。K-means方法是一种常用的基于划分的方法。针对该算法对类中心初始值及孤立点过于敏感的问题,提出了一种改进的K-means算法用于文本特征选择。通过优化初始类中心的选择模式及对孤立点的剔除,改善了文本特征聚类的效果。随后的文本分类试验表明,提出的改进K-means算法具有较好的特征选择能力,文本分类的效率较高。 展开更多
关键词 特征选择 聚类 K均值 文本分类
下载PDF
基于模糊粒度计算的K-means文本聚类算法研究 被引量:12
9
作者 张霞 王素贞 +1 位作者 尹怡欣 赵海龙 《计算机科学》 CSCD 北大核心 2010年第2期209-211,共3页
传统的K-means算法对初始聚类中心非常敏感,聚类结果随不同的初始输入而波动,算法的稳定性下降。针对这个问题,提出了一种优化初始聚类中心的新算法:在数据对象的模糊粒度空间上给定一个归一化的距离函数,用此函数对所有距离小于粒度d_... 传统的K-means算法对初始聚类中心非常敏感,聚类结果随不同的初始输入而波动,算法的稳定性下降。针对这个问题,提出了一种优化初始聚类中心的新算法:在数据对象的模糊粒度空间上给定一个归一化的距离函数,用此函数对所有距离小于粒度d_λ的数据对象进行初始聚类,对初始聚类簇计算其中心,得到一组优化的聚类初始值。实验对比证明,新算法有效地消除了传统K-means算法对初始输入的敏感性,提高了算法的稳定性和准确率。 展开更多
关键词 模糊 粒度 K-meanS 文本聚类 归一化距离函数
下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
10
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-meanS 并行化 文本聚类 SPARK RDD Hadoop MAPREDUCE
下载PDF
基于K-Means的文本层次聚类算法研究 被引量:18
11
作者 尉景辉 何丕廉 孙越恒 《计算机应用》 CSCD 北大核心 2005年第10期2323-2324,共2页
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K-Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。
关键词 文本聚类 向量空间模型 K-meanS算法 层次聚类
下载PDF
基于BTM和K-means的微博话题检测 被引量:13
12
作者 李卫疆 王真真 余正涛 《计算机科学》 CSCD 北大核心 2017年第2期257-261,274,共6页
近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)... 近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等)在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。 展开更多
关键词 短文本 话题模型 话题发现 K-meanS聚类
下载PDF
一种改进的k-means中文文本聚类算法 被引量:13
13
作者 龚静 李安民 《湖南工业大学学报》 2008年第2期52-54,共3页
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具... 提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。 展开更多
关键词 K-meanS算法 文本聚类 中文文本 层次聚类
下载PDF
基于频繁词集和k-Means的Web文本聚类混合算法 被引量:6
14
作者 王乐 田李 +1 位作者 贾焰 韩伟红 《计算机工程与科学》 CSCD 2008年第8期92-96,119,共6页
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁... 当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。 展开更多
关键词 文本挖掘 聚类 频繁词集 K-meanS
下载PDF
基于LDA的改进K-means算法在文本聚类中的应用 被引量:21
15
作者 王春龙 张敬旭 《计算机应用》 CSCD 北大核心 2014年第1期249-254,共6页
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个... 针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 展开更多
关键词 主题模型 K-meanS 聚类中心 文本聚类 隐含狄利克雷分布
下载PDF
结合双粒子群和K-means的混合文本聚类算法 被引量:16
16
作者 王永贵 林琳 刘宪国 《计算机应用研究》 CSCD 北大核心 2014年第2期364-368,共5页
传统K-means算法对初始聚类中心选择较敏感,结果有可能收敛于一般次优解,为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略,根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权... 传统K-means算法对初始聚类中心选择较敏感,结果有可能收敛于一般次优解,为些提出一种结合双粒子群和K-means的混合文本聚类算法。设计了自调整惯性权值策略,根据最优适应度值的变化率动态调整惯性权值。两子群分别采用基于不同惯性权值策略的粒子群算法进化,子代间及子代与父代信息交流,共享最优粒子,替换最劣粒子,完成进化,该算法命名为双粒子群算法。将能平衡全局与局部搜索能力的双粒子群算法与高效的K-means算法结合,每个粒子是一组聚类中心,类内离散度之和的倒数是适应度函数,用K-means算法优化新生粒子,即为结合双粒子群和K-means的混合文本聚类算法。实验结果表明,该算法相对于K-means、PSO等文本聚类算法具有更强鲁棒性,聚类效果也有明显的改善。 展开更多
关键词 双粒子群 自调整惯性权值 信息交流 K-meanS算法 文本聚类
下载PDF
改进灰狼优化算法的K-Means文本聚类 被引量:15
17
作者 潘成胜 张斌 +2 位作者 吕亚娜 杜秀丽 邱少明 《计算机工程与应用》 CSCD 北大核心 2021年第1期188-193,共6页
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并... 针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并对精英个体进行深度探索以增加灰狼种群的多样性,避免早熟收敛现象的发生;将粒子群位置更新思想与灰狼位置更新结合,降低灰狼优化算法陷入局部极值的风险;与K-Means算法结合进行文本聚类。所提算法与K-Means算法、GWO-KMeans以及IPSK-Means算法相比,其准确率、召回率和F值平均都有明显提高,文本聚类结果更可靠。 展开更多
关键词 K-meanS算法 文本聚类 灰狼优化算法 免疫克隆 粒子群
下载PDF
基于Hadoop平台的一种改进K-means文本聚类算法 被引量:4
18
作者 潘俊辉 王辉 +1 位作者 张强 王浩畅 《微型电脑应用》 2022年第1期5-7,共3页
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚... K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。 展开更多
关键词 K-meanS 文本聚类 属性权重 HADOOP
下载PDF
基于局部搜索机制的K-Means聚类算法 被引量:2
19
作者 孙越恒 李志圣 何丕廉 《计算机工程》 CAS CSCD 北大核心 2008年第11期15-17,共3页
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Me... K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。 展开更多
关键词 K-meanS聚类算法 局部搜索机制 KMLS算法 文本聚类
下载PDF
基于Mean-Shift的图像文本信息提取 被引量:5
20
作者 叶茂锹 周武能 朱黎博 《微型电脑应用》 2009年第1期7-9,4,共4页
图像和视频中包含着丰富的文本信息,提取和识别图像文本信息非常具有实际意义。传统的图像文本信息提取方法大多基于字符的代数和几何特征。作者从另一个角度出发,将彩色字符看成彩色图像的一部分,使类似字符的景物也可以被当作字符识... 图像和视频中包含着丰富的文本信息,提取和识别图像文本信息非常具有实际意义。传统的图像文本信息提取方法大多基于字符的代数和几何特征。作者从另一个角度出发,将彩色字符看成彩色图像的一部分,使类似字符的景物也可以被当作字符识别出来。提出一种基于Mean-Shift算法的图像文本信息提取方法,首先利用Mean-Shift算法对图像进行分割,然后对分割得到的文本区域进行投影分析从而将每个字符分割出来,最后将字符识别。 展开更多
关键词 文本信息提取 mean-Shift图像分割 文本检测 投影分割
下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部