-
题名基于和声搜索机制的特征选择与文本聚类分析
- 1
-
-
作者
王永刚
李靖
王文慧
曹传剑
王晓燕
-
机构
青岛黄海学院通识教育学院
青岛黄海学院大数据学院
青岛黄海学院教学工作部
青岛黄海学院智能制造学院
-
出处
《计算机工程与设计》
北大核心
2022年第2期472-478,共7页
-
基金
山东省高等学校青创人才引育计划建设团队基金项目(201901)。
-
文摘
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法。以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类。利用4种典型文档数据集进行仿真实验,实验结果表明,该算法可以有效降低文本特征维度,聚类准确率更高。
-
关键词
特征选择
文本聚类
和声搜索机制
k均值文本聚类
特征子集
-
Keywords
feature selection
text clustering
harmony search mechanism
k-mean text clustering
feature subset
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名融入新的特征选择机制的文本数据聚类算法
被引量:2
- 2
-
-
作者
田夏利
熊莹
-
机构
武汉华夏理工学院信息工程学院
-
出处
《计算机工程与设计》
北大核心
2021年第3期734-741,共8页
-
基金
华夏学院科研基金项目(HX20120201)。
-
文摘
文本信息中包括许多无用特征,这种噪声特征会影响文本聚类效果,为此提出一种基于粒子群优化的文本特征选择算法。利用词频逆文本频率指数为目标函数评估每个文档的文本特征,从初始文档数据集中求解新的有用特征最优子集;以该最优有用特征子集作为K均值聚类的输入进行文本聚类,得到最优文本聚类结果。利用文档数据集进行聚类测试,其结果表明,在多项评估指标上算法表现得更加优秀,在特征选择规模上降低了初始文档特征规模。
-
关键词
特征选择
文本聚类
粒子群优化
k均值文本聚类
目标函数
-
Keywords
feature selection
text clustering
particle swarm optimization
k-mean text clustering
objective function
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-