-
题名类别不平衡高维数据的最优逻辑斯蒂回归
- 1
-
-
作者
李智凡
尹建鑫
-
机构
中国人民大学应用统计科学研究中心统计学院
-
出处
《系统科学与数学》
CSCD
北大核心
2023年第9期2341-2363,共23页
-
基金
国家重点研发计划(2020YFC2004900)资助课题。
-
文摘
研究响应变量两类比例不平衡时逻辑斯蒂回归的最优参数估计和代价敏感分类问题.在代价敏感的损失函数下,将不平衡的两类数量之比作为参数,通过等价转换成一个重新加权的类别平衡分类问题,得到了原问题预测的超额风险(excess risk)的上界和逻辑斯蒂回归系数误差上界.同时利用VC维技术得到了正则条件下超额风险的minimax下界.得出结论:在相差一个可忽略常数倍的意义下,非平衡数据在代价敏感损失下得到的惩罚似然估计的误差界可以达到最优,且最优误差与一个可收敛至零的稀有类比例有关.其次,论文还将主要结论推广至损失函数为非凸的情形,并讨论了在两类数量比例需要估计时的误差上界.此外,通过数值模拟比较了给定和待估计类别比例的实际表现,发现主要结论不受影响.
-
关键词
代价敏感损失函数
类别不平衡数据
逻辑斯蒂回归
minimax最优
-
Keywords
Class imbalance
cost-sensitive loss
logistic regression
minimax optimal.
-
分类号
O212.1
[理学—概率论与数理统计]
-