基于偏相关性测试的递归式因果推断算法被引量：2

Recursive Causal Inference Algorithm Based on Partial Correlation Test

下载PDF

导出

摘要因果推断是挖掘事物间联系的一种重要方式,但在高维数据场景下,利用因果推断算法进行条件独立性(CI)测试存在冗余测试多和测试效率低的问题,这限制了因果推断在高维数据集上的应用。提出一种基于偏相关性测试的递归式因果推断算法。采用“分治”的方法对变量集进行递归式因果分割,得到更易于处理的低维子数据集,提高对数据集的处理效率。在每个子数据集上进行局部因果推断,减少每次因果推断的计算量并提升算法的运行速度。在此基础上,通过比较显著性值的合并策略整合所有子结果并得到完整的因果关系,保证总体因果结构的准确性。在“分治”过程中,采用高效的偏相关性测试避免高复杂度的核密度估算,进一步提升算法效率。基于10个经典数据集的实验结果表明,在准确率与经典推断算法CAPA持平的情况下,该算法的运算速度提升了2~10倍,且在样本量越大的数据集中提升效果越明显,证明递归式因果推断算法可以有效处理高维数据集,在保证准确率的同时提高运算效率。 Causal inference is an important tool for mining relationships between observed data points.The causal inference algorithm encounters the problems of redundant tests and low test efficiency in high-dimensional cases,which limits the application of causal inference in high-dimensional datasets.This study proposes a recursive causal inference algorithm based on partial correlation test.The strategy of‘divide and conquer’is used to perform the recursive causal segmentation of the variable set to obtain the low-dimensional sub-dataset,which is easier to handle and improves the processing efficiency of the dataset.Local causal inference is performed on each subset to reduce the computation amount for each causal inference and improve the running speed of the algorithm.Thereafter,the significant values of the merger strategy are compared to integrate all subresults and obtain a complete causal relationship to ensure the accuracy of the overall causal structure.By‘dividing and conquering’,an efficient partial correlation test is used to avoid the high complexity of kernel density estimation and further improve the efficiency of the algorithm.Experiments are performed on ten classical data sets.The results show that when the accuracy is the same as that of the classical inference algorithm,CAPA,the operation speed of this algorithm improved by two to ten times.The improvement effect is more obvious on the dataset with a larger sample size,which proves that the recursive causal inference algorithm can effectively handle high-dimensional datasets,ensure a good accuracy,and improve the operational efficiency.

作者陈铭杰张浩彭昱忠谢峰庞悦 CHEN Mingjie;ZHANG Hao;PENG Yuzhong;XIE Feng;PANG Yue(School of Computer Science and Technology,Dongguan University of Technology,Dongguan,Guangdong 523808,China;School of Computer,Guangdong University of Petrochemical Technology,Maoming,Guangdong 525099,China;School of Computer Science,Fudan University,Shanghai 200433,China;School of Computer and Information Engineering,Nanning Normal University,Nanning 530001,China;School of Mathematical Sciences,Peking University,Beijing 100871,China;China UnionPay Post-Doctoral Research Station,Shanghai 201201,China)

机构地区东莞理工学院计算机科学与技术学院广东石油化工学院计算机学院复旦大学计算机科学技术学院南宁师范大学计算机与信息工程学院北京大学数学科学学院中国银联博士后科研工作站

出处《计算机工程》 CAS CSCD 北大核心 2022年第10期123-129,共7页 Computer Engineering

基金国家自然科学基金(62006051) 中国博士后科学基金(2020M680225) 广东省高校青年创新人才项目(2020KQNCX049)。

关键词因果推断因果网络条件独立性测试偏相关性测试递归式算法 causal inference causal network Conditional Independence(CI)test partial correlation test recursive algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1吴育锋.统计独立性的离散化新方法[J].计算机应用与软件,2012,29(4):249-252. 被引量：1
2郑巧夺,吴贞东,邹俊颖.基于双层CNN⁃BiGRU⁃CRF的事件因果关系抽取[J].计算机工程,2021,47(5):58-64. 被引量：10
3张浩,郝志峰,蔡瑞初,温雯.基于互信息的适用于高维数据的因果推断算法[J].计算机应用研究,2015,32(2):382-385. 被引量：7

二级参考文献21

1PEARL J. Causality : models, reasoning and inference [ M ]. Cam- bridge: MIT Press, 2000.
2SPIRTES P, GLYMOUR C, SCHEINES R. Causation, prediction, and search[ M]. Cambridge: MIT Press, 2000.
3TSAMARDINOS I, BROWN L E, ALIFERIS C F. The max-rain hill- climbing Bayesian network structure learning algorithm[j]. Machine Learning, 2006, 65( 1 ) : 31-78.
4CHICKERING D M. Optimal structure identieation with greedy search [J]. Journal of Machine Learning Research, 2002, 3: 507- 554.
5SHIMIZU S, HOYER P O, HYVARINEN A, et al. A linear non- Gaussian aeyclic model for causal discovery[ J]. Journal of Machine Learning Research, 2006, 7 : 2003-2030.
6HOYER P O, JANZING D, MOOIJ J M, et al. Nonlinear causal dis- covery with additive noise models [ C ]//Advances in Neural Informa- tion Processing Systems. Cambridze : MIT Press. 2009 .. 689- 696.
7PETERS J, JANZING D, SCHOLKOPF B. Causal inference on dis- crete data using additive noise models[ J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011,33(12) : 2436-2450.
8VARGAS P, MOIOLI R, De CASTRO L N, et al. Artificial homeo- static system: a novel approach[ C]//Proc of the 8th European Con- ference. 2005 : 754-764.
9JANZING D, MOOIJ J, ZHANG Kun, et al. Information- geometric approach to inferring causal directions [ J ]. Artificial Intelligence, 2012, 56( 10):5168-5194.
10COVER T M, THOMAS J A. Elements of information theory [ M ]. New Jersey : Wiley-Blackwell, 2005.

共引文献15

1刘焕勇,薛云志,李瑞,任红萍,陈贺,张鹏.面向开放文本的逻辑推理知识抽取与事件影响推理探索[J].中文信息学报,2021,35(10):56-63. 被引量：2
2洪英汉.一种快速因果网络骨架学习算法[J].南京理工大学学报,2016,40(3):315-321. 被引量：3
3李洪飞,万亚平,阳小华,耿家兴.一种基于CDC的适用于高维数据的因果推断算法[J].计算机技术与发展,2020,30(1):38-43.
4蔡瑞初,谢泳,陈薇,曾艳,郝志峰,杜文俊.面向社交媒体的直接因果网络发现算法[J].计算机应用研究,2020,37(9):2689-2693. 被引量：1
5李阳阳,王亚珅,金昊.基于卷积神经网络的舆情触发词解析方法[J].科技与创新,2021(14):155-157.
6苗佳,段跃兴,张月琴,张泽华.基于CNN⁃BiGRU模型的事件触发词抽取方法[J].计算机工程,2021,47(9):69-74. 被引量：12
7马忠贵,徐晓晗,刘雪儿.因果推断三种分析框架及其应用综述[J].工程科学学报,2022,44(7):1231-1243. 被引量：7
8王东明,陈都鑫.因果推断:起源和发展[J].控制工程,2022,29(3):464-473. 被引量：6
9蔡瑞初,伍运金,陈薇,郝志峰.面向多元时间序列的群体因果关系发现算法[J].计算机工程,2023,49(2):127-135.
10冉紫涵,张仰森,向尕,祁浩家,刁艳茹.因果关系抽取研究综述[J].北京信息科技大学学报（自然科学版）,2023,38(3):89-100. 被引量：1

同被引文献4

1郭珉,石洪波,冀素琴.贝叶斯网络结构稀疏学习研究进展[J].模式识别与人工智能,2016,29(10):907-923. 被引量：8
2Kun Kuang,Lian Li,Zhi Geng,Lei Xu,Kun Zhang,Beishui Liao,Huaxin Huang,Peng Ding,Wang Miao,Zhichao Jiang.Causal Inference[J].Engineering,2020,6(3):253-263. 被引量：11
3丁梦远,兰旭光,彭茹,郑南宁.机器推理的进展与展望[J].模式识别与人工智能,2021,34(1):1-13. 被引量：7
4王双成,苑森淼,王辉.基于贝叶斯网络的马尔科夫毯预测学习[J].模式识别与人工智能,2004,17(1):17-21. 被引量：7

引证文献2

1蔡瑞初,张文辉,乔杰,郝志峰.基于递归分解的因果结构学习算法[J].计算机工程,2023,49(3):87-94.
2陈少凡,韦程东,何国源,彭昱忠,徐辉.基于混合条件独立性测试的因果发现算法[J].南宁师范大学学报（自然科学版）,2023,40(2):50-60.

1魏佳轩,程武学,王永祥,狄威,熊钰丹.巴中市乡村聚落空间分布特征及影响因素[J].水土保持研究,2022,29(4):285-291. 被引量：8
2戴晶帼,任佳,董超,杜文才.基于双尺度约束模型的BN结构自适应学习算法[J].自动化学报,2021,47(8):1988-2001. 被引量：3
3王斌,任涛,宋伊圩,杨可,王占彬,孙亚柯.西秦岭常家山地区水系沉积物地球化学特征及其地质意义[J].现代地质,2022,36(3):911-922. 被引量：1
4李连红,孙玥,成晨,李霞,宋林霞,饶友花,沈会红,王冬梅.重症监护病房COVID-19相关肺曲霉病结局的系统评价和荟萃分析[J].中华医院感染学杂志,2022,32(10):1468-1472. 被引量：1
5赵春梅,黄学渊,张蕾.成都市文化遗产时空分布特征及其影响因素分析[J].北京测绘,2022,36(5):636-643. 被引量：1
6徐任杰,宫琳,朱明仁,谢剑,俞景嘉.不确定信息下考虑相关性与多样性的作战方案推荐方法[J].系统工程与电子技术,2022,44(10):3115-3123.
7孙涛,郑辛,常琦,吴亮华.基于因子图的状态估计方法运算实时性研究[J].导航定位与授时,2022,9(5):126-135.
8柳林林,宫大庆,张玉洁,白如江.因果知识引导的技术机会发现——以电动汽车充电桩为例[J].数据分析与知识发现,2022,6(8):31-40. 被引量：3
9李珂,张会丽,崔红艳,黄文龙,胡国强.3-芳苄叉基噻唑酮-氟喹啉-4-酮氧氟沙星衍生物的合成及抗肿瘤活性[J].中国药学杂志,2022,57(17):1425-1429.

计算机工程

2022年第10期

浏览历史

内容加载中请稍等...

基于偏相关性测试的递归式因果推断算法被引量：2

参考文献3

二级参考文献21

共引文献15

同被引文献4

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于偏相关性测试的递归式因果推断算法 被引量：2

参考文献3

二级参考文献21

共引文献15

同被引文献4

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于偏相关性测试的递归式因果推断算法被引量：2