期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于主题概念聚类的中文文本聚类 被引量:2
1
作者 杨彩莲 谢福鼎 《现代电子技术》 2007年第22期161-163,共3页
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题... 文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。 展开更多
关键词 中文文本聚类 HOWNET 主题概念 CHAMELEON算法
下载PDF
深度词汇网络学习的文本聚类研究
2
作者 易军凯 冯佳明 万静 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第2期107-112,共6页
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复... 为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。 展开更多
关键词 词汇网络 深度学习网络 中文文本聚类
原文传递
基于改进K-means的电商页面数据分析与挖掘 被引量:4
3
作者 叶昊 缪宜恒 张宏俊 《软件》 2023年第6期35-43,共9页
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一... 数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一些不需要自主思考的增删改查类工作,有时还可以担任一些需要自我学习能力的任务,比如对网页数据进行高质量分析与挖掘。为了进一步探究网页数据分析与挖掘,本文提出了一种基于优化样本距离计算方法,从而改进了K-means算法的聚类中心计算方法。具体来说,本文获取常见电商页面“当当网”公开的以“手机”为关键词的近12000条数据,使用文本挖掘技术对其进行数据挖掘,对数据的文本信息进行清洗、中文分词以及关键词权重计算等全面预处理,最终使用聚类中心优化的K-means算法,挖掘看似毫无关联的数据集中的隐藏信息为电商用户提供市场导向。 展开更多
关键词 电商页面 数据挖掘 数据预处理 中文文本聚类
下载PDF
基于DK算法的互联网热点主动发现研究与实现 被引量:10
4
作者 李若鹏 李翔 +1 位作者 林祥 李建华 《计算机技术与发展》 2008年第9期1-4,共4页
针对互联网舆情管控领域信息量大,时效性强,往往偏重于某些方向,如社会热点、焦点,或反动、黄色言论等的特点,文中把基于密度的聚类思想引入传统K-Means算法,提出全新的DK聚类算法,并且基于DK算法构建中文文本聚类模型,重点对互联网媒... 针对互联网舆情管控领域信息量大,时效性强,往往偏重于某些方向,如社会热点、焦点,或反动、黄色言论等的特点,文中把基于密度的聚类思想引入传统K-Means算法,提出全新的DK聚类算法,并且基于DK算法构建中文文本聚类模型,重点对互联网媒体发布信息进行主动热点发现研究。用实验验证中文聚类模型的具体性能,证实了该模型的有效性和实用性。 展开更多
关键词 K-MEANS DK 中文文本聚类 舆情管控
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部