基于信息熵的高维稀疏大数据降维算法研究被引量：19

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

下载PDF

导出

摘要数据降维是从高维数据中挖掘有效信息的必要步骤。传统的主成分分析(PCA)算法应用于超高维稀疏数据降维时,存在着无法将所有数据特征一次性读入内存以进行分析计算的问题,而之后提出的分块处理PCA算法由于耗时太长,并不能满足实际需求。本文引入信息熵的思想对PCA算法进行改进,提出E-PCA算法,先利用信息熵对数据进行特征筛选,剔除大部分无用特征,再使用PCA算法对处理后的超高维稀疏数据进行降维。通过实验结果表明,在保留相同比例原数据信息的情况下,本文提出的基于信息熵的E-PCA算法在内存占用、运行时间以及降维结果都优于分块处理PCA算法。 Data dimensionality reduction is a necessary step in mining effective information fromhigh-dimensional data. When applying the traditional principal component analysis （PCA） algorithm tohigh-dimensional sparse data dimensionality reduction, there is a problem that unable to read all data features atonce into memory for analysis and calculation, furthermore, the improved block processing PCA algorithm also cannot meet the actual requirements because of the time consuming. In this paper, we propose the E-PCA algorithm byintroducing the concept of information entropy to improve the PCA algorithm. First, the useless features areeliminated through feature selection based on information entropy, and then PCA algorithm is used to reduce thedimensionality of large, high-dimensional sparse data. The experimental results show that in the case of keeping thesame proportion of raw data, the information entropy-based E-PCA algorithm proposed in this paper is superior toblock processing PCA algorithm in terms of memory usage, run time and the results of dimension reduction.

作者何兴高李蝉娟王瑞锦邓伏虎刘行

机构地区电子科技大学信息与软件工程学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2018年第2期235-241,共7页 Journal of University of Electronic Science and Technology of China

基金国家自然科学基金(61472064 61602096) 四川省科技计划项目(2016FZ0002 2015JY0178 2016ZC2575) 四川省教育厅重点项目(17ZA0322) 中央高校基本科研基金(ZYGX2014J051 ZYGX2014J066) 网络与数据安全四川省重点实验室开放课题(NDSMS201606)

关键词分块处理降维处理高维稀疏大数据信息熵主成分分析 block processing dimensionality reduction high-dimensional sparse data informationentropy principal component analysis

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1陈伏兵,杨静宇.分块PCA及其在人脸识别中的应用[J].计算机工程与设计,2007,28(8):1889-1892. 被引量：26
2陈伏兵,高秀梅,张生亮,杨静宇.基于分块PCA的人脸识别方法[J].小型微型计算机系统,2006,27(10):1943-1947. 被引量：10
3尹芳黎,杨雁莹,王传栋,王士鹏.矩阵奇异值分解及其在高维数据处理中的应用[J].数学的实践与认识,2011,41(15):171-177. 被引量：20
4李冬芬,王瑞锦,张凤荔.Quantum information splitting of a two-qubit Bell state using a four-qubit entangled state[J].Chinese Physics C,2015,39(4):26-30. 被引量：4
5尹飞,冯大政.基于PCA算法的人脸识别[J].计算机技术与发展,2008,18(10):31-33. 被引量：42

二级参考文献83

1杨健,杨静宇,叶晖.Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003,29(4):481-493. 被引量：97
2张媛,张燕平.一种PCA算法及其应用[J].微机发展,2005,15(2):67-68. 被引量：21
3徐勇,张重阳,杨静宇.基于主分量特征与独立分量特征的人脸识别实验[J].计算机工程与设计,2005,26(5):1155-1157. 被引量：9
4陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
5刘维湘,郑南宁,游屈波.非负矩阵分解及其在模式识别中的应用[J].科学通报,2006,51(3):241-250. 被引量：38
6陈伏兵,陈秀宏,张生亮,杨静宇.基于模块2DPCA的人脸识别方法[J].中国图象图形学报,2006,11(4):580-585. 被引量：61
7韩柯,朱秀昌.基于二维PCA的人脸识别方法研究[J].杭州电子科技大学学报（自然科学版）,2007,27(1):69-72. 被引量：7
8苑玮琦,于清澄.一种基于改进主成分分析的人脸识别方法[J].激光与红外,2007,37(5):478-480. 被引量：12
9张道强陈松灿.高维数据降维方法.中国计算机学会通讯,2009,5(8):15-22.
10Jain A, Chandrasekaran B. Dimensionality and sample size considerations in pattern recognition practice[J]. Handbook of statistics. Amsterdam, Netherlands, 1982 (2): 835-855.

共引文献95

1李俊华,彭力.一种人脸表情分类的新方法——Manhattan距离[J].计算机工程与应用,2008,44(2):74-75. 被引量：5
2李晓东,费树岷,张涛.一种改进的模块PCA方法及其在人脸识别中的应用[J].测控技术,2008,27(11):19-21. 被引量：4
3王江涛,梅雪,林锦国.基于Top-hat变换与主成分分析的人脸识别方法[J].计算机工程与设计,2009,30(2):395-397. 被引量：4
4彭敏晶,肖健华.动态SVDD算法及其应用[J].计算机科学,2009,36(3):156-157. 被引量：4
5黄鸿,李见为,冯海亮.融合LBP和表观流形鉴别分析的人脸识别算法[J].小型微型计算机系统,2009,30(6):1198-1202. 被引量：4
6庞珊珊,熊建设.人脸识别技术和算法综述[J].中国新技术新产品,2009(11):14-14. 被引量：4
7韩成茂.基于类内加权平均值的模块PCA算法[J].计算机工程,2009,35(22):194-196. 被引量：7
8崔美琳,陈才扣.基于分块局部二元模式的鉴别特征抽取方法及人脸识别[J].江南大学学报（自然科学版）,2009,8(6):657-660.
9孙瑶瑶,刘杰.基于Embedded MATLAB函数模块的图像相似度的实现[J].计算机与数字工程,2010,38(2):22-24. 被引量：2
10薛冰,郭晓松,蒲鹏程.人脸识别技术综述[J].四川兵工学报,2010,31(7):119-121. 被引量：15

同被引文献175

1李海林,梁叶.基于关键形态特征的多元时间序列降维方法[J].控制与决策,2020,35(3):629-636. 被引量：11
2张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：20
3秦争艳.探究大数据分析挖掘技术及其决策应用[J].信息通信,2019,0(11):176-177. 被引量：3
4欧阳柏成.网络大数据下的冗余数据分类优化算法研究[J].微电子学与计算机,2015,32(1):128-130. 被引量：2
5孙勇,景博.基于支持度的多传感器一致可靠性融合[J].传感技术学报,2005,18(3):537-539. 被引量：37
6王智文.基于改进BP神经网络的车牌字符识别研究[J].广西工学院学报,2006,17(3):86-88. 被引量：7
7闫雪梅,王晓华,夏兴高.基于PCA和BP神经网络算法的车牌字符识别[J].激光与红外,2007,37(5):481-484. 被引量：11
8钟乐海,胡伟.手写体数字识别系统中一种新的特征提取方法[J].四川大学学报（自然科学版）,2007,44(5):1000-1004. 被引量：13
9倪志伟.BP网络中激活函数的深入研究[J].安徽大学学报（自然科学版）,1997,21(3):48-51. 被引量：6
10倪艳.Isomap算法在地震属性参数降维中的应用[J].西南民族大学学报（自然科学版）,2008,34(2):397-400. 被引量：4

引证文献19

1谢志远,王晶.一种适合电力线信道传输的图像压缩算法[J].电力科学与工程,2019,35(3):45-51. 被引量：3
2张素智,杨芮,陈小妮.基于独立区域划分和压缩感知的数据融合方法[J].计算机技术与发展,2019,29(8):63-66.
3张素智,陈小妮.基于互信息可信度的主成分分析数据降维[J].湖北民族学院学报（自然科学版）,2019,37(4):425-430. 被引量：6
4胡淑新,宋志蕙.基于数据降维的复杂属性大数据分类方法研究[J].河南科技,2020,0(2):18-20.
5张素智,陈小妮,杨芮,李鹏辉,蔡强.基于类内和类间距离的主成分分析算法[J].计算机工程与设计,2020,41(8):2177-2183. 被引量：15
6李明,王炜超,袁逸萍,樊盼盼,高建雄.基于超限学习机的风电机组齿轮箱油温趋势预测研究[J].组合机床与自动化加工技术,2020(11):65-67. 被引量：2
7李发陵,彭娟.基于增强可伸缩随机森林的高维大数据预测分析系统[J].西南师范大学学报（自然科学版）,2021,46(1):1-6. 被引量：3
8余庆,胡尧.基于改进FCM聚类算法的高速公路交通状态识别[J].交通运输研究,2021,7(2):47-54. 被引量：7
9华涛.高维大数据流时间维度特征提取方法仿真[J].计算机仿真,2021,38(4):356-360. 被引量：3
10陈玮,卢佳伟.基于特征矩阵优化与数据降维的文本聚类算法[J].数据采集与处理,2021,36(3):587-594. 被引量：12

二级引证文献74

1姚成北,章玉,岳通.基于ETC门架数据的高速公路运行状态识别[J].中国交通信息化,2023(S01):35-39.
2韩义,张奇月,王研凯,于英利,付旭晨,荣俊,段伦博.基于BP神经网络的300 MW循环流化床机组出力预测[J].华电技术,2020,42(12):1-6. 被引量：5
3董萃莲,董海峰,闫红丹.基于机器学习的钻井液体系优选方法分析[J].智能计算机与应用,2020,10(5):152-154. 被引量：2
4李亚钊,程浚,阚凌志,李彭伟,张素昆.基于主成分分析法的可组合情报生成技术[J].指挥信息系统与技术,2020,11(6):42-46. 被引量：1
5张翔,王红军,彭宝营.基于PCA-FastICA的故障信号分离识别方法[J].北京信息科技大学学报（自然科学版）,2021,36(1):1-5. 被引量：2
6李雪瑞,侯幸刚,杨梅,王璐瑶,王怡妍,李欣颖.数字孪生驱动的工业产品CMF设计服务模型构建与应用[J].计算机集成制造系统,2021,27(2):307-327. 被引量：13
7常冬霞,王舒伟.基于鲁棒回归度量学习的图像分类算法[J].北京交通大学学报,2021,45(2):119-126. 被引量：1
8李宁,芦红.基于聚类分析的水资源利用区划方法[J].沈阳工业大学学报,2021,43(4):425-431. 被引量：4
9徐军.基于深度学习的财务异常数据智能分析方法研究[J].电子设计工程,2021,29(16):149-152. 被引量：6
10杜淑颖,侯海薇,丁世飞.基于多层次特征的深度集成聚类算法[J].南京大学学报（自然科学版）,2021,57(4):575-581. 被引量：1

1罗幼喜,李翰芳.混合效应模型的多惩罚回归过程及其算法收敛性研究[J].统计与信息论坛,2017,32(10):3-10. 被引量：2
2解洪胜.Linear SVM在大数据分类中的应用[J].信息技术与信息化,2017(9):81-83. 被引量：1
3王冠鹏,黄旭东.高维稀疏精度矩阵的有效分布式估计[J].系统科学与数学,2017,37(11):2271-2280. 被引量：1
4段云涛,申玮,杨勇.低内存占用采摘作业机器人设计——基于分类器和top-k优化算法[J].农机化研究,2018,40(1):214-218. 被引量：3
5王鑫,周韵,宁晨,石爱业.自适应融合局部和全局稀疏表示的图像显著性检测[J].计算机应用,2018,38(3):866-872. 被引量：21
6老万.系统内存优化就这么简单[J].电脑爱好者,2018,0(2):36-37.
7侯炜炜,孙家强,程鹏飞.斜拉桥静动力模型试验的若干问题[J].能源与环保,2017,39(11):51-56. 被引量：1
8侯清麟,田靓,王迎霞,侯熠徽.剔除石英砂锭色斑的工艺技术研究[J].广州化工,2018,46(1):84-86.
9姚运志,孟晨,王成,李宝晨.基于聚合算法的失效相关多部件系统维修策略优化[J].系统工程与电子技术,2018,40(2):482-488. 被引量：3
10饶伟,李勇,颜骥.支持向量机在高功率器件制造中的应用[J].控制与信息技术,2018(1):62-64.

电子科技大学学报

2018年第2期

浏览历史

内容加载中请稍等...

基于信息熵的高维稀疏大数据降维算法研究被引量：19

参考文献5

二级参考文献83

共引文献95

同被引文献175

引证文献19

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于信息熵的高维稀疏大数据降维算法研究 被引量：19

参考文献5

二级参考文献83

共引文献95

同被引文献175

引证文献19

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

基于信息熵的高维稀疏大数据降维算法研究被引量：19