基于稀疏表示和特征加权的大数据挖掘方法的研究被引量：15

Study on Big Data Mining Method Based on Sparse Representation and Feature Weighting

下载PDF

导出

摘要为了提高大数据挖掘的效率及准确度,文中将稀疏表示和特征加权运用于大数据处理过程中。首先,采用求解线性方程稀疏解的方式对大数据进行特征分类,在稀疏解的求解过程中利用向量的范数将此过程转化为最优化目标函数的求解。在完成特征分类后进行特征提取以降低数据维度,最后充分结合数据在类中的分布情况进行有效加权来实现大数据挖掘。实验结果表明,相比于常见的特征提取和特征加权算法,提出的算法在查全率和查准率方面均呈现出明显优势。 In order to improve the efficiency and accuracy of big data mining,this paper applied the sparse representation and feature weighting into big data processing.At first,the features of big data are classified by solving the sparse mode of linear equation.In the process of solving the sparse solution,a vector norm is utilized to transform this process into the process of solving the optimization objective function.After feature classification,feature extraction is executed to reduce the dimensionality of data.Finally,the distribution of data in the class is combined sufficiently to conduct weighting effectively,thus realizing data mining.The experimental results suggest that the proposed algorithm is supe-rior to the common feature extraction and feature weighting algorithms in the terms of recall and precision.

作者蔡柳萍解辉张福泉张龙飞 CAI Liu-ping;XIE Hui;ZHANG Fu-quan;ZHANG Long-fei(School of Computer Science&Engineering,Tianhe College of Guangdong Polytechnic Normal University,Guangzhou 510540,China;Department of Computer Sciences and Technology,Tsinghua University,Beijing 100084,China;School of Software,Beijing Institute of Technology,Beijing 100081,China)

机构地区广东技术师范学院天河学院计算机科学与工程学院清华大学计算机科学与技术系北京理工大学软件学院

出处《计算机科学》 CSCD 北大核心 2018年第11期256-260,共5页 Computer Science

基金文化部国家科技支撑计划项目(2012BAH38F00) 广东省本科高校应用型人才培养课程建设项目:能力培养导向的计算机类应用型课程建设(2017SZ03) 广东省科技计划项目:基于医药电商大数据的服务系统研发(2016A010101029) 广东技术师范学院天河学院计算机科学与技术重点学科建设项目(Xjt201702)资助

关键词大数据数据挖掘特征加权特征提取稀疏表示 Big data Data mining Feature weighting Feature extraction Sparse representation

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1梁吉业.大数据挖掘面临的挑战与思考[J].计算机科学,2016,43(7):1-2. 被引量：8
2肖林云,陈秀宏,林喜兰.特征加权和优化划分的模糊C均值聚类算法[J].微电子学与计算机,2016,33(10):143-146. 被引量：6
3姜芳,李国和,岳翔.基于语义的文档特征提取研究方法[J].计算机科学,2016,43(2):254-258. 被引量：10
4罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
5邱大伟,刘彦隆.改进的稀疏表示图像超分辨率复原算法[J].电视技术,2016,40(1):135-140. 被引量：3
6刘景华,林梦雷,张佳,林耀进.一种启发式的局部随机特征选择算法[J].计算机工程与应用,2016,52(2):170-174. 被引量：5
7陈珍,夏靖波,柏骏,徐敏.基于进化深度学习的特征提取算法[J].计算机科学,2015,42(11):288-292. 被引量：18
8曾庆森,黄贤英.基于FP-tree的快速数据挖掘算法[J].重庆工学院学报（自然科学版）,2009,23(10):72-76. 被引量：3

二级参考文献85

1方敏,王宝树.基于进化策略的多传感器雷达辐射源目标识别方法[J].控制理论与应用,2004,21(2):165-168. 被引量：2
2武方方,赵银亮,蒋泽飞.基于密度聚类的支持向量机分类算法[J].西安交通大学学报,2005,39(12):1319-1322. 被引量：11
3张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
4王晓峰,张松筠.一种双向挖掘频繁项的有效方法[J].计算机科学,2006,33(12):196-199. 被引量：1
5王朝辉,王婷婷.一种快速的频繁项集挖掘算法[J].贵州工业大学学报（自然科学版）,2006,35(6):60-63. 被引量：1
6王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
7Han J, Kamber M. Data Mining: Concepts and Techniques [ M ]. Beijing: High Educattion Press, 2001.
8Zaki M J. Parallel and distributed association mining: A survey [ J ]. IEEE Concurrency, Special Issue on Parallel Mechanisms for Data Mining, 1999, 7 (4) : 14 - 25.
9Han J W, Pei J, Yin Y. Mining frequent patterns without Candidate Generation [ C ] //Proceedings of the 2000 ACM SIGMOD international conference on Management of data. [ S. l. ] : ACM Press, 2000.
10Bengio Y, Delalleau O. On the expressive power of deep archi-tecture [M]// Algorithmic Learning Theory. Springer,2011:18-36.

共引文献122

1巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
2陈林,陈维义.基于数据仓库的海军要地防空作战决策支持系统[J].四川兵工学报,2011,32(7):90-92. 被引量：1
3李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
4王盈旭,韩红桂,郭民.一种基于改进型深度学习的非线性建模方法[J].信息与控制,2018,47(6):680-686. 被引量：4
5张晶华,甘宇健.基于深度学习支持向量机的上证指数预测[J].统计与决策,2019,35(2):176-178. 被引量：7
6杨亚威,胡双演,张士杰,张姣,李俊山.基于字典对联合学习的退化图像复原方法[J].计算机辅助设计与图形学学报,2015,27(3):406-413. 被引量：2
7浦灵敏,胡宏梅.基于改进匹配追踪算法的语音信号处理研究[J].信息安全与通信保密,2015,13(12):127-130.
8郭长友,郑雪峰,高秀莲.基于不确定理论的不确定性数据Top-k查询计算[J].计算机科学,2016,43(3):225-230. 被引量：2
9黄毅晟.基于移动端图像识别的题库采集模型实践研究[J].中国信息技术教育,2016(12):75-78. 被引量：1
10朱丰,胡晓峰.基于深度学习的战场态势评估综述与研究展望[J].军事运筹与系统工程,2016,30(3):22-27. 被引量：39

同被引文献158

1刘波涛,彭长根,吴睿雪,丁红发,谢明明.基于MILP方法的LED密码安全性分析[J].计算机应用研究,2020,37(2):505-509. 被引量：4
2张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：21
3王晓辉,吴禄慎,陈华伟.基于法向量距离分类的散乱点云数据去噪[J].吉林大学学报（工学版）,2020,50(1):278-288. 被引量：19
4魏洁,杨正玲.患者、医生和系统产生内容对患者择医行为的影响[J].管理科学,2022,35(4):44-56. 被引量：11
5陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：13
6刘兵,夏士雄,周勇,韩旭东.基于样本加权的可能性模糊聚类算法[J].电子学报,2012,40(2):371-375. 被引量：21
7殷国鹏.消费者认为怎样的在线评论更有用?——社会性因素的影响效应[J].管理世界,2012,28(12):115-124. 被引量：190
8龚奇源,杨明,罗军舟.面向缺失数据的数据匿名方法[J].软件学报,2013,24(12):2883-2896. 被引量：5
9刘肖肖,宋瑶瑶,刘慧晖,杨国梁.基于DEA方法的中国科技企业孵化器的效率评价——以29个省份的孵化器为例[J].科技管理研究,2018,38(22):50-57. 被引量：11
10陈小平.基于区块链理念的图书馆移动用户行为大数据挖掘研究[J].图书馆工作与研究,2018(12):63-68. 被引量：42

引证文献15

1江华.浅谈Windows98的桌面[J].电脑编程技巧与维护,2000(5):30-31.
2张楷卉,李鹏.一种基于模糊C均值聚类的稀疏数据缺失值填充方法[J].黑龙江大学自然科学学报,2019,36(6):750-756. 被引量：5
3杨华.基于属性分类的装备保障数据特征挖掘法[J].兵器材料科学与工程,2020,43(6):124-128. 被引量：5
4李晶,张滨.基于并行挖掘大数据的无损云取证模型仿真[J].计算机仿真,2021,38(2):9-12.
5尚福华,曹茂俊,王才志.基于人工智能技术的局部离群数据挖掘方法[J].吉林大学学报（工学版）,2021,51(2):692-696. 被引量：7
6周挺.基于物联网技术的一卡通用户信息数据挖掘模型研究[J].自动化与仪器仪表,2021(3):58-60. 被引量：2
7陆惠惠,王炼.基于数据挖掘的大用户用电特征分类方法研究[J].电子设计工程,2021,29(14):38-41. 被引量：6
8戴惠丽,王敬宇.基于特征加权的分布式大数据相关性挖掘方法[J].计算机仿真,2021,38(6):282-285. 被引量：3
9叶苗,张国华.基于Hadoop技术的并行计算模式定向数据挖掘方法[J].电子技术与软件工程,2021(15):159-161.
10张思松,陈文.基于LDA模型和语义网络的线上文本挖掘方法[J].安庆师范大学学报（自然科学版）,2022,28(2):41-45. 被引量：2

二级引证文献41

1郭毅博,牛猛,王海迪,陈艳华,薛均晓,袁玥,侯立硕,徐明亮,潘俊.基于生成对抗网络的飞机燃油数据缺失值填充方法[J].浙江大学学报（理学版）,2021,48(4):402-409. 被引量：11
2应栋子,刘福斌,辛洁晴.基于物业状态画像的预付费电力客户辨识[J].智慧电力,2022,50(1):68-74. 被引量：1
3张宇红,万仁霞.粗糙集属性约简理论在初中教育中的应用[J].科学大众（智慧教育）,2021(10):183-184.
4岳鹏.海量负荷用电模式辨识方法研究[J].自动化应用,2021(11):134-136.
5程雅琼.基于双区块链结构的高维光谱离群数据挖掘[J].电脑知识与技术,2022,18(15):17-18. 被引量：1
6阮大治,徐东,黄海艇.电子信息系统中多维度数据协同过滤方法[J].电子设计工程,2022,30(15):113-117.
7崔鹏飞.基于改进FCM聚类算法的隧道火灾受困人员信息化定位方法[J].计算技术与自动化,2022,41(3):82-87. 被引量：1
8方志伟,顾亚文.融合速度约束与似然估计的数据清洗研究[J].信息技术,2022,46(10):130-135.
9崔志鹏,吉卫喜,曹桢淼,陈琛,周姝含.FP-Growth-DW算法在离散车间的数据挖掘分析[J].现代制造工程,2023(3):45-54. 被引量：1
10王鑫根.基于数据挖掘技术的企业审计模型构建及算法优化[J].粘接,2023,50(4):187-191. 被引量：5

1何涛,王桂芳,杨美妮,郭楷模.基于词嵌入语义的精准检索式构建方法[J].现代情报,2018,38(11):55-58. 被引量：10
2浩庆波,高慧,万曙静.一种基于PSO特征加权的局部支持向量机[J].智能计算机与应用,2018,8(6):61-63.
3告别唯流量时代，爱奇艺关闭显示前台播放量[J].现代广告,2018,0(18):6-6.
4易燕,岳天翔.体育赛事数字视频直播的镜头转换检测算法分析[J].电视技术,2018,42(11):27-30.
5刘丽倩,董东.基于代价敏感集成分类器的长方法检测[J].计算机科学,2018,45(B11):497-500. 被引量：3
6谢萌蕤,赵兆,李阳,许志勇.基于多尺度子带能量集特征的膛口波识别方法[J].兵工学报,2018,39(10):1951-1957.
7武丽芬,罗永莲,王秀华.高维大数据流连续异常点检测方法仿真[J].计算机仿真,2018,35(10):462-466. 被引量：8
8马语晗,赵辉.基于特征选择加权支持向量机的运动模式识别[J].传感器世界,2018,24(9):28-33. 被引量：2
9刘凯.移动网络环境中不良信息智能过滤方法仿真[J].计算机仿真,2018,35(10):329-332. 被引量：3
10李婧.二手车贷险业务拓展的法律分析[J].中国保险,2018(9):52-56.

计算机科学

2018年第11期

浏览历史

内容加载中请稍等...

基于稀疏表示和特征加权的大数据挖掘方法的研究被引量：15

参考文献8

二级参考文献85

共引文献122

同被引文献158

引证文献15

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于稀疏表示和特征加权的大数据挖掘方法的研究 被引量：15

参考文献8

二级参考文献85

共引文献122

同被引文献158

引证文献15

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于稀疏表示和特征加权的大数据挖掘方法的研究被引量：15