考虑数据源网络结构的高维数据整合分析与子群识别研究被引量：1

High-dimensional Data Integrative Analysis and Subgroup Identification Incorporating Data Source Network Structure

下载PDF

导出

摘要大数据时代,收集到的数据维度越来越高,数据来源也越来越多。针对多源高维数据,本文提出了一种考虑数据源网络结构的多源高维数据整合分析方法,利用k近邻方法构建数据源间的网络结构,对于有网络连接的数据集的模型系数施加NetworkMCP惩罚来自动识别同质数据和异质数据,并利用MCP惩罚筛选每个数据集的重要变量,能同时进行各数据源的模型估计、变量选择以及数据源的子群识别。模拟实验表明,在不同的模拟设置下本文所提方法在变量选择、参数估计和分类预测准确率上都有良好的效果。最后,将该方法应用到房地产租赁评价数据上,利用经纬度位置信息构建数据源间的网络结构,可以很好地识别出房地产子市场,并在模型上具有更好的解释性。 In the era of big data, the dimensions of collected data are getting increasingly higher, with data sources diversified. Considering multi-source high-dimensional data, this paper proposes a new integrative analysis method using the K-nearest neighbor method to construct a network structure between data sources. It combines Network MCP penalty with separate MCP penalty to not only automatically identify homogeneous datasets and heterogeneous datasets, but also select the important variable sets of each dataset. In this way, our method can simultaneously conduct the model estimation, variable selection and subgroup identification of data sources. Simulation experiments show that the proposed method has a significant advantage in variable selection, parameter estimation and classification prediction accuracy under different settings. Finally, through experiments on real estate lease evaluation datasets which provide latitude and longitude location information for network construction, it is empirically shown that the proposed method can well identify the sub-markets of real estate and has better interpretability.

作者方匡南张晴雯林洪伟 Fang Kuangnan;Zhang Qingwen;Lin Hongwei

机构地区厦门大学经济学院香港科技大学

出处《统计研究》 CSSCI 北大核心 2022年第7期125-136,共12页 Statistical Research

基金国家自然科学基金面上项目“基于多源信息融合的高维分类方法及其在信用评分中的应用”(72071169) 教育部人文社会科学研究青年基金“基于半监督学习的消费金融风控方法与应用研究”(20YJC910004) 国家社会科学基金重大项目“国家治理能力现代化的测度理论、方法与进展评价研究”(21&ZD146)。

关键词多源高维数据整合分析网络结构子群识别 Multi-socure High-dimensional Data Integrative Analysis Network Structure Subgroup Identification

分类号 F222.1 [经济管理—国民经济]

引文网络
相关文献

参考文献2

1马双鸽,王小燕,方匡南.大数据的整合分析方法[J].统计研究,2015,32(11):3-11. 被引量：27
2方匡南,赵梦峦.基于多源数据融合的个人信用评分研究[J].统计研究,2018,35(12):92-101. 被引量：17

二级参考文献24

1李志辉,李萌.我国商业银行信用风险识别模型及其实证研究[J].经济科学,2005(5):61-71. 被引量：33
2Fan J, Han F, Liu H. Challenges of Big Data analysis [J] National Science Review, 2014, 1 (2) :293 -314.
3Yuan M, Lin Y. Model selection and estimation in regression with grouped variables [ J ]. Journal of the Royal Statistical Society: Series B, 2006, 68:49 -67.
4Simon N, Friedman J, Hastie T and Tibshirani R. A sparse Group lasso [ J]. Journal of Computational and Graphical Statistics, 2013, 22(2) :231 -245.
5Huang J, Ma S, Xie H and Zhang C. -H. A group bridge approach for variable selection [ J]. Biometrika, 2009, 96:339 - 355.
6Ma S, Huang J, Song X. Integrative analysis and variable selection with multiple high-dimensional data sets [ J]. Biostatistics, 2011 a, 12(4) : 763 -775.
7Fan J, Li R. Variable selection via nonconcave penalized likelihood and its oracle properties [ J]. Journal of the American Statistical Association, 2001, 96 : 1348 - 1360.
8Ma S, Dai Y, Huang J and Xie Y. Identification of breast cancer prognosis markers via integrative analysis [ J ]. Computational statistics and data analysis, 2012, 56 (9) : 2718 - 2728.
9Huang J, Wei F, Ma S. Consistent group selection and estimation via normed minimax concave penalty, 2010. Unpublished manuscript.
10Huang J, Breheny P, Ma S. A selective review of group selection in high-dimensional models [J]. Statistical Science, 2012, 27(4): 481 - 499.

共引文献37

1孙怡帆,王彩晶,罗梓烨.基于变系数模型的高维数据异同性识别方法研究[J].统计研究,2021,38(5):136-146.
2范新妍,方匡南,郑陈璐,张志远.基于整合治愈率模型的信贷违约时点预测[J].统计研究,2021(2):99-113. 被引量：2
3安华章,黄文林,陈峥,刘志国,樊代明.p53重组腺病毒载体的构建[J].第四军医大学学报,2000,21(2):220-222. 被引量：1
4方匡南,赵梦峦.基于多源数据融合的个人信用评分研究[J].统计研究,2018,35(12):92-101. 被引量：17
5王星月,马友华,王静,毛雪.基于国土资源的大数据应用研究[J].国土与自然资源研究,2017(4):74-80. 被引量：18
6辜子寅.大数据背景下统计学专业教学改革的一些思考[J].统计与管理,2017,0(12):15-16. 被引量：7
7斯介生,李扬,谢邦昌.基于异质性数据的Logit变量选择模型研究[J].统计研究,2017,34(12):110-118. 被引量：5
8马宗梅,张睿萍.分布式数据库信息传输效率优化仿真[J].计算机仿真,2018,35(5):182-185. 被引量：2
9相静,王玖,胡西厚.健康医疗大数据驱动下的疾病风险评估与预测方法探析[J].中国卫生信息管理杂志,2018,15(3):329-333. 被引量：10
10向逾,潘克新,徐太祥.大数据在监护仪质量控制数据分析中的应用研究[J].医疗卫生装备,2018,39(8):64-67. 被引量：6

同被引文献13

1张腾飞,李中文,马福民,窦春霞,彭晨,岳东.基于类簇规模不均衡度量的粗糙模糊K-means聚类算法[J].信息与控制,2020,49(3):281-288. 被引量：9
2袁龙,栗维勋,李一鹏,赵琰.基于云平台的智能电网监测体系研究[J].电测与仪表,2020,57(23):87-91. 被引量：13
3马草原.基于低秩模型的电力能源大数据异常修正方法研究[J].自动化仪表,2021,42(3):90-93. 被引量：3
4郭方方,吕宏武,任威霖,王瑞妮.基于有监督判别投影的网络安全数据降维算法[J].通信学报,2021,42(6):84-93. 被引量：15
5杨少瑜,黄国栋,林星宇,乐彦婷,唐俊杰.基于拉格朗日插值法的概率建模方法及其在概率潮流分析中的应用[J].现代电力,2021,38(4):378-385. 被引量：8
6董雪,高远,敖炳.基于TDengine的智能电网监控系统数据存储方法研究[J].电气应用,2021,40(8):68-74. 被引量：17
7朱建新,袁文彬,吕宝林,乔松.基于操作参数大数据分析的电脱盐系统运行优化技术研究[J].石油化工自动化,2021,57(5):6-10. 被引量：2
8莫慧凌,郑海峰,高敏,冯心欣.基于联邦学习的多源异构数据融合算法[J].计算机研究与发展,2022,59(2):478-487. 被引量：25
9卢峰,吴朝文,陈小龙,张柯柯,桂宁.基于云计算的电力能源大数据清洗模型构建[J].自动化仪表,2022,43(1):72-76. 被引量：8
10陈晶,朱全民.有理模型辨识的两类新方法—–混合迭代与柔性最小二乘法[J].控制与决策,2022,37(1):58-66. 被引量：5

引证文献1

1杨晶,妥建军,李昊,廖翯,马雅蓉.电网多源异构缺失数据最优投影整合算法研究[J].自动化仪表,2024,45(4):76-81.

1杨静,谢高妙,李结,简运华,黄如渠.母体营养对改善仔猪出生重的影响[J].广东饲料,2022(7):44-46. 被引量：1

统计研究

2022年第7期

浏览历史

内容加载中请稍等...

考虑数据源网络结构的高维数据整合分析与子群识别研究被引量：1

参考文献2

二级参考文献24

共引文献37

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

考虑数据源网络结构的高维数据整合分析与子群识别研究 被引量：1

参考文献2

二级参考文献24

共引文献37

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

考虑数据源网络结构的高维数据整合分析与子群识别研究被引量：1