摘要
利用分类树辅助Logistic回归建模的思路已得到不少研究者的认可,并在不同的应用场景下进行了尝试。但在实践的应用中,关于分类树算法的选择,以及如何联合两种方法筛选变量构建模型,缺乏必要的论证。利用分类树辅助Logistic回归建模型的本质是打破线性回归方程对数据结构的限制,通过引入数值型变量的离散化,以及增加交互项,将非线性关系引入回归方程。本文通过剖析分类树和Logistic回归两种建模技术在原理、方法和应用中的异同点,提出利用分类树辅助Logistic回归建模时的算法选择,以及应用中的具体方法和步骤。文章利用2002年3206名美国老年人是否购买私人医疗保险的数据进行了实操演示。论文发现利用分类树辅助Logistic回归建模,通过引入交互项,提升了Logistic回归模型对数据的表达和拟合能力。但同时也应该看到,非线性的引入降低了模型的简洁性和泛化能力,由于回归模型中待估参数个数的增加,在样本量有限的情况下,参数估计的稳健性也会受到影响。
出处
《统计与管理》
2023年第5期4-12,共9页
Statistics and Management
基金
国家社会科学基金一般项目“人工智能驱动的职业流动模拟及2035年劳动力市场技能短缺状况预估研究”(22BTJ032)
全国统计科学研究项目“大型社会调查中行、职业编码的智能化及质量控制研究”(2022LZ25)。