期刊文献+

基于信息熵的类别变量的数值化方法

下载PDF
导出
摘要 无论是学术上还是工程实践中,数据预处理是整个数据挖掘中最基础也是最费时的一个环节,其中数据类型的转换也是重要一环。聚类算法中,旨在将数据集划分为有意义的簇,簇内高内聚,簇间低耦合,往往是抽象为样本之间的距离来聚类,因此许多聚类算法都要求样本集中变量必须是数值型;分类算法中,虽然随机森林、神经网络等算法对变量类型的要求并不严苛,但是在经典的逻辑回归算法中,仍需要对数据进行数值化的预处理。该文介绍了一种基于信息论,对样本变量中类别型变量(categorical variables)进行数值化处理的方法,分别在逻辑回归和支持向量机两种机器学习算法中,进行了几组实验,对比实验结果,发现此方法在性能上、应用上都很有优势。
作者 余芳 曹布阳
出处 《电脑知识与技术》 2017年第12X期193-195,共3页 Computer Knowledge and Technology
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部