针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的...针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。展开更多
分析了多类支持向量数据描述(support vector data description,SVDD)算法存在的问题,提出一种新的不平衡数据v-NSVDD多分类算法.该方法借鉴了v-SVM方法以及带有负类的SVDD的思想,并基于不同类别样本间隔最大原理,较好地克服噪声和在野...分析了多类支持向量数据描述(support vector data description,SVDD)算法存在的问题,提出一种新的不平衡数据v-NSVDD多分类算法.该方法借鉴了v-SVM方法以及带有负类的SVDD的思想,并基于不同类别样本间隔最大原理,较好地克服噪声和在野点的影响,提高了分类模型的泛化性能;通过样本加权的方法解决了不平衡类别样本预测精度低的问题,并在理论上给出了根据类别样本数量设置样本加权系数的方法.针对实际应用存在大量复杂、非线性分类数据,通过核方法把上述线性分类算法推广到非线性数据分类情形.由于现有的多分类器无法实现拒判,而且每个分类器的核函数参数不同,导致数据点与各个超球中心距离的计算结果与实际距离不相符,影响了数据判决结果的准确性和可靠性.针对上述问题,给出基于相对距离和K-NN规则相结合的多分类方法,提高了分类结果的准确性和可靠性.使用Benchmark数据集进行仿真实验,结果表明本算法能够获得较低的分类误差,能够有效处理样本不平衡问题.展开更多
文摘针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法 IPR(integrated probability ratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。
文摘分析了多类支持向量数据描述(support vector data description,SVDD)算法存在的问题,提出一种新的不平衡数据v-NSVDD多分类算法.该方法借鉴了v-SVM方法以及带有负类的SVDD的思想,并基于不同类别样本间隔最大原理,较好地克服噪声和在野点的影响,提高了分类模型的泛化性能;通过样本加权的方法解决了不平衡类别样本预测精度低的问题,并在理论上给出了根据类别样本数量设置样本加权系数的方法.针对实际应用存在大量复杂、非线性分类数据,通过核方法把上述线性分类算法推广到非线性数据分类情形.由于现有的多分类器无法实现拒判,而且每个分类器的核函数参数不同,导致数据点与各个超球中心距离的计算结果与实际距离不相符,影响了数据判决结果的准确性和可靠性.针对上述问题,给出基于相对距离和K-NN规则相结合的多分类方法,提高了分类结果的准确性和可靠性.使用Benchmark数据集进行仿真实验,结果表明本算法能够获得较低的分类误差,能够有效处理样本不平衡问题.