-
题名通信垃圾文本识别的半监督学习优化算法
- 1
-
-
作者
邱宁佳
沈卓睿
王辉
王鹏
-
机构
长春理工大学计算机科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第17期121-128,共8页
-
基金
吉林省科技发展计划技术攻关项目(No.20190302118GX)
吉林省教育厅“十三五”科学技术项目(No.JJKH20190601KJ)。
-
文摘
在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作为检测器和自体集,对两者进行异常匹配;使用否定选择密度聚类算法对样本相似性进行评估,改进传统的下采样方法,使用NBSVM分类器对采样后的通信样本进行垃圾识别;使用PCA对样本所具有的信息量进行评估,提出改进的PCA-SGD算法对模型参数进行调优,完成通信垃圾文本的半监督识别任务。为了验证改进算法的优越性,使用不平衡通信文本等多个数据集,在否定选择密度聚类、NSDC-DS算法、PCASGD与传统模型上进行对比分析。实验结果表明,改进的模型不仅具有较好的通信垃圾文本识别能力,而且具有较快和稳定的收敛速度。
-
关键词
非平衡数据
垃圾文本识别
否定选择密度聚类
基于否定选择密度聚类的下采样算法(NSDC-DS)
基于主成分分析的随机梯度下降(pca-sgd)算法
-
Keywords
unbalanced data
spam text recognition
negative selection density clustering
Down-Sampling algorithm based on Negative Selection Density Clustering(NSDC-DS)
Stochastic Gradient Descent based on Principal Component Analysis(pca-sgd)algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于PCA的GHA算法在BP网中的融合应用
- 2
-
-
作者
范燕
吴小俊
邵长斌
宋晓宁
-
机构
江苏科技大学计算机科学与工程学院
江南大学物联网工程学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第12期302-306,共5页
-
基金
国家自然科学基金(61100116
61471182
+4 种基金
61572242)
江苏省自然科学基金(BK2012700
BK20130473)
江苏省高校自然科学基金(13KJB5200003)
四川省人工智能重点实验室基金(2012RZY02)资助
-
文摘
针对传统特征提取方法和BP神经网络相结合而存在的缺点,提出一种新的分类器模型"PCABP网"。首先利用PCA特征向量来初始化PCABP网的初始层权值矩阵,由此新模型的初始层起到取代PCA进行特征提取的作用。其次在训练过程中通过GHA和GD算法对初始层投影权值矩阵进行动态调节来优化特征向量。该方法从源头样本来优化"类别分离"和"特征提取",找到对样本降维和分类的最佳契合点,以此来替代传统模式识别中"首先单独特征提取,其次利用分类器分类"的方式。在FERET人脸库上的实验结果验证了该方法的有效性。
-
关键词
前馈神经网络
主成分分析
广义赫布算法
弹性梯度下降算法
性别分类
融合神经网络
-
Keywords
BP beural betwork, PCA, GHA, RPROP, Gender classification, Mixed neural network
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-