期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于属性加权的独依赖条件概率编码方法
1
作者 梁祖鹏 李秋德 胡思贵 《运筹与模糊学》 2023年第1期74-87,共14页
包含分类属性和数值属性的混合数据广泛存在于真实世界采集的数据或实验数据,在挖掘或分析这类数据前,通常需要将它们处理(转换/嵌入/表示/编码)为高质量的数值数据。条件概率编码方法(以属性条件独立假设为前提)在大多数情况下能取得... 包含分类属性和数值属性的混合数据广泛存在于真实世界采集的数据或实验数据,在挖掘或分析这类数据前,通常需要将它们处理(转换/嵌入/表示/编码)为高质量的数值数据。条件概率编码方法(以属性条件独立假设为前提)在大多数情况下能取得不错的性能,但当它面对具有强属性关联的数据集时,性能并不理想。受独依赖值差度量的启发,将放宽属性条件独立的构想应用于条件概率编码方法。此外,还利用属性加权法来优化编码后的数据质量。融合上述这些方法,我们为混合数据的分类编码提出了一个属性加权的独依赖条件概率编码方法。实验结果表明,我们的编码方法可以显著性提高数据转换的质量,从而增强后续数据分析算法的性能。 展开更多
关键词 混合数据分类 条件概率编码 独依赖值差度量 属性加权
下载PDF
非数值化特征的条件概率区域划分(CZT)编码方法 被引量:1
2
作者 贺亮 徐正国 +1 位作者 李赟 沈超 《计算机应用研究》 CSCD 北大核心 2020年第5期1400-1405,共6页
非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码... 非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding)。该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,从理论上推导并证明CZT编码对特征的压缩率至少为每个特征取值空间的平均大小,同时证明经过CZT编码后的问题具有更简单的优化目标形式,有利于设计后续机器学习算法;最后通过采用相同结构的神经网络进行分类,在Titanic数据集下对比CZT算法和one-hot算法编码数据后对分类器性能的影响,结果表明CZT编码的数据的分类准确率和稳定性均有提升。 展开更多
关键词 深度学习 非数值化特征 特征工程 联合条件概率编码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部