-
题名基于约束的粒子群聚类算法
被引量:2
- 1
-
-
作者
张国英
沙芸
-
机构
北京石油化工学院计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z2期192-197,共6页
-
基金
国家"八六三"高技术研究发展计划基金项目(2006AA060205)
北京市教委基金项目(KM200610017007)
-
文摘
提出了一种基于约束的粒子群聚类算法CCPSO,该算法利用粒子群的特性在数据集中有指导地随机搜索聚类中心向量, 在较少的迭代次数内确定类别数.各样本与其类别中心的均方误差作为粒子群优化的目标函数,数据集的边界作为粒子群移动的约束条件,对约束违反分情况进行惩罚.基于数据集的方差和模糊高斯函数将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间,以降低不平衡数据集的影响.聚类iris数据集和Reuters-21578文档集以验证算法的有效性,并与k-means算法进行了对照实验,在大规模数据聚类时有明显优势.
-
关键词
粒子群优化算法
聚类
约束优化
惩罚函数
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词间语义相关度的搜索结果聚类算法
被引量:2
- 2
-
-
作者
沙芸
张国英
-
机构
北京石油化工学院计算机科学与工程系
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2009年第1期73-76,共4页
-
基金
北京市教育委员会项目
编号KM200610017007
-
文摘
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高.
-
关键词
搜索结果聚类
词间语义相关度
文档相似度
-
Keywords
search result clustering
semantic relevance between words
document similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词汇图的搜索结果聚类算法
- 3
-
-
作者
沙芸
张国英
-
机构
北京石油化工学院计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z2期135-139,共5页
-
基金
国家"八六三"高技术研究发展计划基金项目(2006AA060205)
北京市教育委员会资助基金项目(KM200610017007)
-
文摘
将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定义了以词为顶点、文档为词的属性、词间相关度为边的词汇图,并以词汇图为依据进行文档类别划分.充分利用了词间的关联信息,增强了同义词的扩展能力,划分后即可确定类别名.实验结果表明,进行搜索结果聚类时与传统算法相比质量上有所提高.
-
关键词
搜索结果聚类
词汇图
同义词
文档相似度
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-