不完整高维大数据的相似度度量方法研究

Research on Similarity Measurement Method of Incomplete High-Dimensional Big Data

下载PDF

导出

摘要为提高不完整高维大数据的挖掘和检索能力,需要进行相似度度量研究,提出基于信息融合和模糊聚类的不完整高维大数据的相似度度量方法。构建不完整高维大数据的统计序列模型,采用大数据空间区域结构重组方法进行不完整高维大数据的相似度度量,提取不完整高维大数据的相似度的描述性统计特征量,结合量化回归分析方法,对提取的不完整高维大数据的关联特征集进行分类融合,构建基于模糊C均值聚类的不完整高维大数据信息融合模型,采用分段检验方法进行数据聚类中心寻优控制,实现不完整高维大数据的相似度度量与建模。仿真结果表明,采用该方法进行不完整高维大数据的相似度度量的准确性较好,特征匹配能力较强,提高了大数据的挖掘准确性和完整性。 In order to improve the ability of mining and retrieving incomplete high-dimensional data,a similarity measurement method based on information fusion and fuzzy clustering is proposed.A statistical sequence model is constructed,and the similarity measurement of incomplete high-dimensional large data is carried out through regional structure reorganization of large data space.The descriptive statistical features of incomplete high-dimensional large data similarity are extracted.Combining with quantitative regression analysis method,the associated feature set of incomplete high-dimensional large data is classified and fused,and an information fusion model based on fuzzy C-based mean clustering is built.The data clustering center is optimized by means of piecewise test,and the similarity measurement and modeling of incomplete high-dimensional and large data are realized.The simulation results show that the proposed method improves the accuracy and integrity of large data mining with better accuracy in similarity measurement and stronger feature matching ability.

作者漆世钱 QI Shiqian(China Coast Guard Academy, Ningbo 315801,China)

机构地区武警海警学院

出处《信息工程大学学报》 2019年第4期487-491,共5页 Journal of Information Engineering University

基金武警海警学院教学改革项目(KG201812) 教育部高教司教学改革项目(201802087033)。

关键词不完整高维大数据相似度度量特征提取挖掘模糊聚类 incomplete high-dimensional big data similarity measurement feature extraction mining fuzzy clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1王楚捷,王好贤.M-CORD下无线接入网络资源分配研究[J].计算机工程与应用,2018,54(22):92-98. 被引量：75
2肖利群.基于自适应级联匹配的云光纤海量数据疏导模型[J].激光杂志,2016,37(9):109-112. 被引量：5
3张涛,唐振民,吕建勇.一种基于低秩表示的子空间聚类改进算法[J].电子与信息学报,2016,38(11):2811-2818. 被引量：25
4贾军,杨进,李涛.一种基于DPI自关联数据包检测分类方法[J].四川大学学报（自然科学版）,2019,56(1):29-36. 被引量：36
5陈少淼,李智勇,杨波,李彦武.云环境下超启发式能耗感知调度算法[J].计算机工程与应用,2016,52(2):74-80. 被引量：16
6何亮,徐晓岭,吴生荣.缺失数据场合下Frechet分布参数的逆矩估计[J].兵器装备工程学报,2018,39(10):197-203. 被引量：4
7毕安琪,董爱美,王士同.基于概率和代表点的数据流动态聚类算法[J].计算机研究与发展,2016,53(5):1029-1042. 被引量：24
8姚富光,钟先信,周靖超.粒计算:一种大数据融合智能建模新方法[J].南京理工大学学报,2018,42(4):503-510. 被引量：44
9邓志刚,曾国荪,谭云兰,熊焕亮.云存储内容分发网络中的能耗优化方法[J].计算机应用,2016,36(6):1515-1519. 被引量：14

二级参考文献64

1Lee Y C,Zomaya A Y.Energy conscious scheduling for distributed computing systems under different operating conditions[J].IEEE Transactions on Parallel and Distributed Systems,2011,22(8):1374-1381.
2Zong Z,Manzanares A,Ruan X,et al.EAD and PEBD:two energy-aware duplication scheduling algorithms for parallel tasks on homogeneous clusters[J].IEEE Transactions on Computers,2011,60(3):360-374.
3Hou E S H,Ansari N,Ren H.A genetic algorithm for multiprocessor scheduling[J].IEEE Transactions on Parallel and Distributed Systems,1994,5(2):113-120.
4Wu A S,Yu H,Jin S,et al.An incremental genetic algorithm approach to multiprocessor scheduling[J].IEEE Transactions on Parallel and Distributed Systems,2004,15(9):824-834.
5Kashani M,Jahanshahi M.Using simulated annealing for task scheduling in distributed systems[C]//International Conference on Computational Intelligence,Modelling and Simulation,2009:265-269.
6Wolpert D H,Macready W G.No free lunch theorems for optimization[J].IEEE Transactions on Evolutionary Computation,1997,1(1):67-82.
7Chandrakasan A P,Sheng S,Brodersen R W.Low-power CMOS digital design[J].IEICE Transactions on Electronics,1992,75(4):371-382.
8Burke E,Kendall G,Newall J,et al.Hyper-heuristics:an emerging direction in modern search technology[M]//International series in operations research and management science.US:Springer,2003:457-474.
9Topcuoglu H,Hariri S,Wu M.Performance-effective and low-complexity task scheduling for heterogeneous computing[J].IEEE Transactions on Parallel and Distributed Systems,2002,13(3):260-274.
10Burke E K,Kendall G,Soubeiga E.A tabu-search hyperheuristic for timetabling and rostering[J].Journal of Heuristics,2003,9(6):451-470.

共引文献196

1裴炜旻.基于粗糙集的医院智能仪器数据库安全访问方法[J].自动化与仪器仪表,2020(4):175-178.
2刘秀平,冯国栋,袁皓,王柯欣,闫焕营.结构化矩阵分解的网状织物缺陷检测方法[J].电子测量与仪器学报,2022,36(10):181-188.
3赵丽红.基于MEC技术的移动网络资源安全分配算法研究[J].长春大学学报,2022,32(2):15-19.
4孙致信,龚敏珠,陈琳军,马骏,张志慈,华漱涯,曹晶.自体造血干细胞移植治疗难治性恶性淋巴瘤[J].上海医学,2000,23(5):282-285. 被引量：2
5王凯.智能变电站二次设备运行信息存储系统[J].自动化与仪器仪表,2018,0(12):212-215. 被引量：6
6黄春华.光纤网络中的安全等级预测算法研究[J].激光杂志,2019,40(1):150-154. 被引量：2
7樊立攀,傅晨,尚凡,刘喆成,孙亮.新型智能化电力销售收入管控体系构建[J].自动化与仪器仪表,2019(1):125-128.
8于传波,聂仁灿,周冬明,何敏.变空间协同表示判别分析的特征提取算法[J].云南大学学报（自然科学版）,2019,41(1):28-35. 被引量：1
9毕安琪,王士同.基于Kullback-Leiber距离的迁移仿射聚类算法[J].电子与信息学报,2016,38(8):2076-2084. 被引量：17
10何奇彦.基于稀疏聚类算法的关中地区旅游信息资源共享研究[J].自动化与仪器仪表,2017(2):116-118. 被引量：2

1周满满,袁凌云.一种基于权重矩阵的协同过滤算法的相似度度量方法[J].现代电子技术,2019,42(22):92-97. 被引量：3
2邹小露.沪港通背景下我国金融机构系统性风险度量研究[J].投资与创业,2020,0(2):30-31.
3蒋玉婷.云计算环境下基于权重的大数据跨源调度方法研究[J].新一代信息技术,2019,2(20):65-70. 被引量：2
4罗杰.基于SD模型的电力项目风险管理研究[J].新一代信息技术,2019,2(19):79-82.
5詹柳春,黄长江.云计算下物联网密集场景大数据挖掘技术[J].电子测量技术,2019,42(23):164-168. 被引量：15
6王在琴.品管圈在降低护理记录单书写缺陷率中的应用[J].世界最新医学信息文摘,2019,0(83):334-335.
7任华新.RSSI改进算法下多目标文本数据关联特征定位研究[J].内蒙古民族大学学报（自然科学版）,2020,35(1):36-41.
8刘崇屹,付霖宇,朱桂芳,唐玲,翁新华.基于改进AHP和云模型的质量状态定性评估[J].火力与指挥控制,2019,44(12):120-126. 被引量：7
9沈立铸.基于风险偏好的商业银行企业贷款组合优化探析[J].商场现代化,2020(3):133-134.
10续蕾.基于大数据分析技术的网络自动编程系统研究[J].内蒙古民族大学学报（自然科学版）,2020,35(1):18-23. 被引量：1

信息工程大学学报

2019年第4期

浏览历史

内容加载中请稍等...

不完整高维大数据的相似度度量方法研究

参考文献9

二级参考文献64

共引文献196

相关作者

相关机构

相关主题

浏览历史