基于信息熵的类别变量的数值化方法

下载PDF

导出

摘要无论是学术上还是工程实践中,数据预处理是整个数据挖掘中最基础也是最费时的一个环节,其中数据类型的转换也是重要一环。聚类算法中,旨在将数据集划分为有意义的簇,簇内高内聚,簇间低耦合,往往是抽象为样本之间的距离来聚类,因此许多聚类算法都要求样本集中变量必须是数值型;分类算法中,虽然随机森林、神经网络等算法对变量类型的要求并不严苛,但是在经典的逻辑回归算法中,仍需要对数据进行数值化的预处理。该文介绍了一种基于信息论,对样本变量中类别型变量(categorical variables)进行数值化处理的方法,分别在逻辑回归和支持向量机两种机器学习算法中,进行了几组实验,对比实验结果,发现此方法在性能上、应用上都很有优势。

作者余芳曹布阳

机构地区同济大学软件学院

出处《电脑知识与技术》 2017年第12X期193-195,共3页 Computer Knowledge and Technology

关键词信息熵虚拟变量逻辑回归支持向量机

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

1陈贤宇,李有强,吕苗苗,卢建成,陈文强.基于二分法的K-means算法的实现[J].无线电通信技术,2017,43(6):37-40. 被引量：8
2王侠林,贺建峰.基于K-Means聚类的微生物群落结构研究[J].软件导刊,2018,17(1):146-148. 被引量：4
3张玮炜.Java中字符串的几种操作[J].经济技术协作信息,2017,0(35):101-101.
4徐卫华.关于电测仪表计量检定的探讨研究[J].科技尚品,2017,0(8):5-5.
5沈荣,张保文.机器学习学习方式及其算法探讨[J].电脑知识与技术（过刊）,2017,23(8X):159-160. 被引量：2
6樊祯杰,金华.数值型云外包数据范围查询隐私保护方法[J].信息技术,2017,41(12):175-180. 被引量：2
7林吉焱,段永红.华北地区深地震测深成果库建设及应用[J].地球物理学进展,2017,32(5):1901-1906. 被引量：2
8张好,姚多喜,鲁海峰,朱宁宁,薛凉.主成分分析与Bayes判别法在突水水源判别中的应用[J].煤田地质与勘探,2017,45(5):87-93. 被引量：25
9尧李慧,蔡晓华,田雷,侯云涛.自走式智能牛舍清洁机器人路径设计与研究[J].农机化研究,2018,40(1):51-56. 被引量：7
10叶宁,朱珠.持续硬膜外麻醉分娩镇痛对分娩四要素的影响[J].中国实用护理杂志,2018,34(3):203-208. 被引量：19

电脑知识与技术

2017年第12X期

浏览历史

内容加载中请稍等...

基于信息熵的类别变量的数值化方法

相关作者

相关机构

相关主题

浏览历史