-
题名基于关键词加权的混合特征文本快速分类仿真
- 1
-
-
作者
徐佳丽
杨长红
-
机构
南昌应用技术师范学院电子与信息工程学院
江西科技师范大学数学与计算机科学学院
-
出处
《计算机仿真》
2024年第3期510-513,518,共5页
-
文摘
电子文本形式的网络信息不仅数量多,且混合特征具有较高相似性,很难达到特征的平均分布。特征项在类别间的不均性导致文本权重计算易出现偏差,影响类别特征词的提取,导致文本分类难度较大。为此,提出一种基于关键词加权的混合特征文本快速分类方法。采用词频逆文本频率指数信息检索方法对文本加权,计算不同权重下文本关键词在中心集合中出现的频率。根据频率阈值提取关键特征,确定文本集合中类中心点。计算与类中心相关性最高的文本数据,提取关联度特征。建立神经网络分类模型,预先设定一组包含详细特征的文本集,作为初始值输入到神经网络中,每个层次根据目标特征逐一比对实现有效分类。实验证明,所研究方法的查全率更高,文本混合特征提取的召回率高于40%,说明研究方法应用性能更优,对不同种类的文本集均能完成精准分类。
-
关键词
关键词加权
混合特征文本
频率阈值
神经网络分类模型
-
Keywords
Keywords weighting
Mixed feature text
Frequency threshold
Neural network classification model
-
分类号
TP327
[自动化与计算机技术—计算机系统结构]
-