分类是数据挖掘中一项非常重要的任务,目前大多分类算法处理的都是数值数据,少数处理符号数据的算法泛化性能不佳。针对这个问题,提出了一种基于组合关联分析的符号数据分类方法(categorical data classifi cation approach based on co...分类是数据挖掘中一项非常重要的任务,目前大多分类算法处理的都是数值数据,少数处理符号数据的算法泛化性能不佳。针对这个问题,提出了一种基于组合关联分析的符号数据分类方法(categorical data classifi cation approach based on combinatorial association analysis,CD_CAA)。通过引入提升度,将符号数据的属性与标签关联起来转化成数值数据后训练模型;在预测过程中,将测试数据与所有可能的类标签进行组合关联分析,将一个实际的测试样本转化为多个虚拟的测试样本,综合分析虚拟样本的假设类别标签,最终得到真实的预测标签。通过组合关联分析,将符号数据转换为数值数据,而转化过程所采用的提升度恰好反映了同一属性对不同类别的不同贡献,提高了模型泛化性能。实验结果表明,与传统机器学习方法相比,所提出的CD_CAA方法能更好地处理符号数据分类任务。展开更多
文摘分类是数据挖掘中一项非常重要的任务,目前大多分类算法处理的都是数值数据,少数处理符号数据的算法泛化性能不佳。针对这个问题,提出了一种基于组合关联分析的符号数据分类方法(categorical data classifi cation approach based on combinatorial association analysis,CD_CAA)。通过引入提升度,将符号数据的属性与标签关联起来转化成数值数据后训练模型;在预测过程中,将测试数据与所有可能的类标签进行组合关联分析,将一个实际的测试样本转化为多个虚拟的测试样本,综合分析虚拟样本的假设类别标签,最终得到真实的预测标签。通过组合关联分析,将符号数据转换为数值数据,而转化过程所采用的提升度恰好反映了同一属性对不同类别的不同贡献,提高了模型泛化性能。实验结果表明,与传统机器学习方法相比,所提出的CD_CAA方法能更好地处理符号数据分类任务。