-
题名多重属性过滤深度特征合成算法
被引量:2
- 1
-
-
作者
王立可
崔小莉
张力戈
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
四川虹信软件股份有限公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第12期169-174,共6页
-
基金
国家自然科学基金(No.61402537)
中国科学院西部青年学者项目
四川省科技计划(No.2018GZDZX0041)。
-
文摘
传统特征工程从关系实体中提取特征完全倚靠人工,繁琐、费时且易出错,深度特征合成算法可以为结构化数据合成大量特征,实现关系实体的自动特征工程。针对深度特征合成算法中合成特征冗余严重且难以筛选的问题,提出一种基于Kullback-Leibler(KL)散度和Hellinger距离结合的属性过滤算法。通过映射连接实体与标记,度量实体中属性的重要程度,对实体中的属性多重过滤,拒绝实体中重要程度低的属性参与深度特征合成算法,得到优化的特征合成结果。选取三种不同类型的公开数据集在不同的机器学习算法上进行实验验证。结果表明,改进的方法能够明显减少算法运行时间与合成数据规模,有效提高合成特征的质量与最终预测准确率。
-
关键词
深度特征合成
多重属性过滤
KL散度
Hellinger距离
-
Keywords
deep feature synthesis
multiple attribute filtering
Kullback-Leibler(KL)divergence
Hellinger distance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-