-
题名基于二进制蜉蝣优化的特征选择及文本聚类算法
被引量:1
- 1
-
-
作者
高新成
周中雨
王莉利
邵国铭
张强
-
机构
东北石油大学现代教育技术中心
东北石油大学计算机与信息技术学院
-
出处
《吉林大学学报(理学版)》
CAS
北大核心
2023年第3期631-640,共10页
-
基金
国家自然科学基金(批准号:61702093)
东北石油大学引导性创新基金(批准号:2020YDL-03).
-
文摘
针对文本冗余特征导致聚类精度较低的问题,提出一种基于二进制蜉蝣优化的特征选择及文本聚类算法.首先,对传统蜉蝣算法的位置更新、交配与变异策略进行改进;然后,将其与特征选择模型相结合,以逆文档频率为目标函数对文本特征进行选择;最后,在新特征子集的基础上,利用K-means++算法对文本进行聚类,得到最优文本聚类结果.在多个数据集上进行实验的结果表明,该算法能有效缩短特征维数,提高文本聚类效率.
-
关键词
二进制蜉蝣算法
文本聚类
收敛速度
特征选择
-
Keywords
binary mayfly algorithm
text clustering
convergence rate
feature selection
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名改进二进制麻雀搜索的特征选择及文本聚类
被引量:1
- 2
-
-
作者
高新成
邵国铭
张海洋
周中雨
-
机构
东北石油大学现代教育技术中心
东北石油大学计算机与信息技术学院
-
出处
《重庆理工大学学报(自然科学)》
北大核心
2023年第8期166-176,共11页
-
基金
国家自然科学基金项目(61702093)
中国高校产学研创新基金项目(2021ITA02011)
黑龙江省教育科学规划重点课题(GJB1423357)。
-
文摘
针对文本中存在冗余特征影响聚类精度等问题,提出一种结合蜣螂优化算法改进二进制麻雀搜索算法的特征选择及文本聚类算法。利用基于特征词权重的适应度函数完成文本特征评估,构建矢量空间模型;引入蜣螂优化算法中的圆周方向搜索机制,改进传统麻雀搜索算法中麻雀发现者位置更新策略,并融入滚动方向机制的随机游走策略提升全局搜索能力,结合转移函数对连续型麻雀位置进行更新,得到优化的二进制麻雀搜索算法,筛选出优质特征子集;选用k-means++算法完成文本聚类。通过多种基准函数及公共数据集进行验证,结果表明:所提方法能够有效降低文本特征维度,提高聚类效果。
-
关键词
特征选择
蜣螂优化算法
二进制麻雀搜索算法
k-means++
文本聚类
特征词权重
-
Keywords
feature selection
dung beetle optimization algorithm
binary sparrow search algorithm
k-means++
text clustering
feature word weight
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-