期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于半参数估计的非随机缺失样本分类
1
作者 夏利宇 王蕾 刘赛可 《统计与决策》 CSSCI 北大核心 2018年第8期17-20,共4页
因变量非随机缺失是指样本中因变量的缺失机制与其自身特征高度相关,由于样本缺失具有选择性而不再适合推断总体特征。文章借鉴非随机缺失数据均值泛函估计的思想,运用基于指数倾斜的半参数模型解决非随机缺失样本的二分类问题,结合8类... 因变量非随机缺失是指样本中因变量的缺失机制与其自身特征高度相关,由于样本缺失具有选择性而不再适合推断总体特征。文章借鉴非随机缺失数据均值泛函估计的思想,运用基于指数倾斜的半参数模型解决非随机缺失样本的二分类问题,结合8类因变量缺失情形进行数值模拟研究,将半参数模型对非随机缺失样本的分类效果与Logit模型、SVM模型、决策树模型进行比较,实证结果表明,半参数方法的分类效果具有明显优势。 展开更多
关键词 非随机缺失 二分类 半参数 指数倾斜
下载PDF
我国能源消费情况及其影响因素分析
2
作者 夏利宇 《中国证券期货》 2011年第3X期89-90,共2页
伴随着我国经济的持续快速发展,相应的对能源的消费量也在持续增加。面对人口众多,人均能源拥有量少的现状,能源问题仍然是困扰我国经济发展的一个重要因素。本文将对我国能源消费总量与经济发展的关系进行探讨,并综合考虑第二产业发展... 伴随着我国经济的持续快速发展,相应的对能源的消费量也在持续增加。面对人口众多,人均能源拥有量少的现状,能源问题仍然是困扰我国经济发展的一个重要因素。本文将对我国能源消费总量与经济发展的关系进行探讨,并综合考虑第二产业发展水平,人口数量,居民消费能源量,能源转化率等因素,建立多元回归模型,对我国能源消费问题进行定量分析,并提出相应的建议。 展开更多
关键词 能源消费总量 GDP 第二产业 人口 人均生活消费能源 能源转化率
下载PDF
基于正交迭代的有监督的稀疏主成分分析 被引量:2
3
作者 王蕾 李因果 夏利宇 《统计与信息论坛》 CSSCI 北大核心 2018年第6期3-8,共6页
主成分分析是经典的无监督的数据处理工具,近年来关于稀疏主成分和有监督的主成分研究受到较多关注。基于正交迭代和距离相关系数,提出一种有监督的稀疏主成分分析方法 SSPCA,该方法考虑了自变量与因变量之间的相关性,并在迭代求解的过... 主成分分析是经典的无监督的数据处理工具,近年来关于稀疏主成分和有监督的主成分研究受到较多关注。基于正交迭代和距离相关系数,提出一种有监督的稀疏主成分分析方法 SSPCA,该方法考虑了自变量与因变量之间的相关性,并在迭代求解的过程中将一些与因变量Y相关性很弱的自变量对应的系数变为0,使所求的特征向量只保留预测能力较强的自变量信息;在数值模拟与实例分析中,相比其他四种方法,SSPCA方法均能取得较好效果。 展开更多
关键词 稀疏主成分分析 有监督主成分分析 主成分逆回归模型 拟合误差 预测误差
下载PDF
结合XGBoost算法和Logistic回归的信用评级方法 被引量:5
4
作者 夏利宇 张勇 +1 位作者 鲁强 汤广瑞 《征信》 北大核心 2019年第11期56-59,共4页
信用评级模型是金融机构科学评估客户违约风险的重要工具。以提升信用评级模型分类准确性和确保可解释性为目标,提出将XGBoost算法与Logistic Group Lasso模型相结合的信用评级方法,利用XGBoost算法进行特征选择来简化模型结构,构建Logi... 信用评级模型是金融机构科学评估客户违约风险的重要工具。以提升信用评级模型分类准确性和确保可解释性为目标,提出将XGBoost算法与Logistic Group Lasso模型相结合的信用评级方法,利用XGBoost算法进行特征选择来简化模型结构,构建Logistic Group Lasso模型来确保模型中重要变量的可解释性。基于某商业银行小微企业信贷业务数据的实证研究表明,新方法对贷款客户的分类效果显著优于常规方法,能够有效防控客户的违约风险,为金融机构带来更多收益。 展开更多
关键词 信用评级模型 特征选择 可解释性 XGBoost算法 Logistic Group Lasso模型
下载PDF
信用评级模型构建的统计学解读 被引量:4
5
作者 夏利宇 何琬 《征信》 北大核心 2019年第6期44-48,共5页
不断累积的征信信息为判断借款人信用表现提供了数据支持,计算机技术的飞速发展为批量处理贷款申请提供了技术保障。金融机构利用统计方法建立信用评级模型,能够尽可能准确地挖掘违约借款人的信用特征,对借款人信用表现进行精准预判。... 不断累积的征信信息为判断借款人信用表现提供了数据支持,计算机技术的飞速发展为批量处理贷款申请提供了技术保障。金融机构利用统计方法建立信用评级模型,能够尽可能准确地挖掘违约借款人的信用特征,对借款人信用表现进行精准预判。从信用评级模型的概念入手,揭示信用评级模型的统计学本质,通过对比信用评级建模的输入端和输出端,即征信数据和信用评分卡,从统计学的视角解读建模过程中需要解决的数据离散化、特征选择、数据缺失、拒绝推断和数据不平衡五类技术难题。 展开更多
关键词 信用评级模型 征信数据 评分卡 统计学
下载PDF
网络空间视角下国家风险影响因素分析——基于“一带一路”沿线国家
6
作者 夏利宇 何晓群 刘赛可 《中国物价》 2018年第5期13-16,共4页
利用2007年至2015年"一带一路"沿线51个国家的面板数据,建立空间误差模型分析宏观因素对国家风险的影响。结果表明:国家风险具有网络空间交互结构,国家经济发展、国内社会现状、国际收支情况和政府收支水平在一定程度上影响国家风险... 利用2007年至2015年"一带一路"沿线51个国家的面板数据,建立空间误差模型分析宏观因素对国家风险的影响。结果表明:国家风险具有网络空间交互结构,国家经济发展、国内社会现状、国际收支情况和政府收支水平在一定程度上影响国家风险。提升防范外部风险冲击的能力,需要各国加强国内经济社会建设,并积极地开展对外合作交流。 展开更多
关键词 国家风险 影响因素 一带一路 交互网络 空间计量
下载PDF
不平衡数据下模型评价指标的有效性探讨 被引量:7
7
作者 刘赛可 何晓群 夏利宇 《统计与决策》 CSSCI 北大核心 2022年第19期5-9,共5页
模型评价指标对于衡量模型的表现尤为关键,只有正确合理的评价指标才能更好地反映模型的性能优劣。由于AUC和KS指标在被用于评价信用评级模型时,均存在忽视了数据的不平衡性和类别误判代价不等价性的不足,故文章从代价敏感矩阵出发计算... 模型评价指标对于衡量模型的表现尤为关键,只有正确合理的评价指标才能更好地反映模型的性能优劣。由于AUC和KS指标在被用于评价信用评级模型时,均存在忽视了数据的不平衡性和类别误判代价不等价性的不足,故文章从代价敏感矩阵出发计算总损失,进而提出新的评价指标——AKS指标。进一步地,模拟分析的结果表明,由AKS指标确定的阈值较KS指标更合理,且不同情形下AUC、KS和AKS指标的有效性分析结果表明AKS指标可以较好地衡量模型的分类性能。 展开更多
关键词 不平衡数据 评价指标 AKS 信用评级模型
下载PDF
信用评级中多类别分类自变量的类合并方法研究 被引量:2
8
作者 刘赛可 何晓群 夏利宇 《统计与信息论坛》 CSSCI 北大核心 2020年第7期3-8,共6页
信用评级建模中,当多个分类变量的类别较多时会给模型的估计和预测造成较大影响,因此需要对多类别的分类变量进行预处理。结合连续数据离散化的方法,提出基于Fisher精确检验、CACM准则和ACACM准则的有监督类合并方法。分别采用模拟数据... 信用评级建模中,当多个分类变量的类别较多时会给模型的估计和预测造成较大影响,因此需要对多类别的分类变量进行预处理。结合连续数据离散化的方法,提出基于Fisher精确检验、CACM准则和ACACM准则的有监督类合并方法。分别采用模拟数据和真实的小微企业信贷业务数据对所提出的方法进行分析,结果表明,对多类别的分类变量进行有效的类合并处理不仅有利于简化模型参数,而且有利于提高信用评级模型的分类效果。 展开更多
关键词 分类自变量 有监督的类合并 信用评级 数据预处理
下载PDF
中国妇女生育意愿及影响因素研究——基于CHNS数据的计数膨胀模型分析 被引量:12
9
作者 姜天英 夏利宇 《调研世界》 CSSCI 2019年第1期11-16,41,共7页
为全面考察我国妇女生育意愿,本文基于2015年中国健康与营养调查(CHNS)数据,分别从实际生育子女数量、意愿生育数量和生育二孩意愿三个方面进行研究。研究发现:生育意愿是妇女个人因素和家庭因素为获取家庭收益最大化而相互作用的产物,... 为全面考察我国妇女生育意愿,本文基于2015年中国健康与营养调查(CHNS)数据,分别从实际生育子女数量、意愿生育数量和生育二孩意愿三个方面进行研究。研究发现:生育意愿是妇女个人因素和家庭因素为获取家庭收益最大化而相互作用的产物,是家庭成员间谈判的结果;妇女生育意愿与实际生育行为在影响因素和性别偏好上存在区别,实际生育子女数量会受到家庭和政策条件的限制,实际生育行为表现出男孩性别偏好;丈夫特征对妇女生育二孩意愿起到重要作用。因此,在实施人口政策过程中,应注重协调妇女个人因素与家庭因素的关系,注意完善居民的社会保障制度,打破生育观念中落后的传统思想。 展开更多
关键词 生育子女数量 全面二孩 计数膨胀模型 LOGIT模型 CHNS
下载PDF
SMOTE混合抽样对非平衡数据分类效果的影响分析 被引量:3
10
作者 王蕾 刘赛可 夏利宇 《调研世界》 CSSCI 2020年第1期34-41,共8页
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,... 本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。 展开更多
关键词 非平衡数据 SMOTE过抽样 欠抽样 混合抽样 分类效果
下载PDF
就业视角下的社会地位代际流动研究——基于CHNS数据的贝叶斯联合建模分析 被引量:1
11
作者 姜天英 夏利宇 《调研世界》 CSSCI 2019年第6期14-20,共7页
文章基于1989年、2000年、2011年中国健康与营养调查(CHNS)微观数据进行截面数据联合建模,在就业视角下研究社会地位代际流动随时间的变动趋势。截面数据联合建模能够同时处理混合类型因变量,是微观数据环境下对纵向数据联合建模的调整... 文章基于1989年、2000年、2011年中国健康与营养调查(CHNS)微观数据进行截面数据联合建模,在就业视角下研究社会地位代际流动随时间的变动趋势。截面数据联合建模能够同时处理混合类型因变量,是微观数据环境下对纵向数据联合建模的调整。模拟研究表明,与独立建模相比,联合建模不仅考虑了模型间的内在关联,而且具有更加准确和稳定的参数估计。实证结果显示,1989年至2011年在子辈社会地位获得过程中,先赋因素的影响减小,后致因素的影响显著提升,各类隐性因素的影响范围扩大,社会整体流动性不断增强。对于先赋因素处于劣势条件的子辈,接受高等教育是其获得高社会地位的最佳途径。 展开更多
关键词 社会地位 代际流动 截面数据联合建模 贝叶斯估计 GIBBS抽样
下载PDF
基于收缩近邻方法的征信缺失数据插补研究 被引量:5
12
作者 夏利宇 何晓群 《数学的实践与认识》 北大核心 2017年第8期147-153,共7页
在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失... 在海量征信数据的背景下,为降低缺失数据插补的计算成本,提出收缩近邻插补方法.收缩近邻方法通过三阶段完成数据插补,第一阶段基于样本和变量的缺失比例计算入样概率,通过不等概抽样完成数据的收缩,第二阶段基于样本间距离,选取与缺失样本近邻的样本组成训练集,第三阶段建立随机森林模型进行迭代插补.利用Australian数据集和中国各银行数据集进行模拟研究,结果表明在确保一定插补精度的情况下,收缩近邻方法较大程度减少了计算量. 展开更多
关键词 征信数据 缺失插补 样本距离 随机森林
原文传递
基于半参数方法进行拒绝推断的信用评级模型 被引量:9
13
作者 夏利宇 何晓群 《管理评论》 CSSCI 北大核心 2018年第10期40-48,共9页
拒绝推断可视为因变量非随机缺失问题的特例,它处理信用评级建模中由于被拒客户的信用表现未知,样本偏差导致的参数估计有偏问题。本文基于Kim和Yu 2011年提出的非随机缺失下均值泛函的半参数估计模型,提出处理拒绝推断的迭代半参数法... 拒绝推断可视为因变量非随机缺失问题的特例,它处理信用评级建模中由于被拒客户的信用表现未知,样本偏差导致的参数估计有偏问题。本文基于Kim和Yu 2011年提出的非随机缺失下均值泛函的半参数估计模型,提出处理拒绝推断的迭代半参数法。运用此方法在5类缺失情形下进行模拟研究,并对Australian数据和中国某银行的征信数据进行实证研究。结果表明,与常用方法相比,迭代半参数法可以有效地识别被拒绝申请者中的"坏"客户,降低金融机构的违约风险,是一种相对保守的方法。 展开更多
关键词 信用评级模型 拒绝推断 半参数估计 非随机缺失
原文传递
信用评级模型的数据离散化研究 被引量:3
14
作者 夏利宇 刘赛可 何晓群 《数学的实践与认识》 北大核心 2019年第23期60-66,共7页
连续变量离散化属于信用评级建模的初始阶段,科学的离散化操作能够提升模型的分类效果和参数的稳定性,便于评级模型的产品呈现.考虑信用评级的误判成本差异,对类别-属性一致性最大化准则进行类别权重调整,提出ACACM准则,并提出基于ACAC... 连续变量离散化属于信用评级建模的初始阶段,科学的离散化操作能够提升模型的分类效果和参数的稳定性,便于评级模型的产品呈现.考虑信用评级的误判成本差异,对类别-属性一致性最大化准则进行类别权重调整,提出ACACM准则,并提出基于ACACM准则的数据离散化算法.ACACM算法调整原算法中不同类别个体的权重,更加倾向于刻画误判成本较高的违约客户,使离散化后的变量能够提升评级模型的风险控制能力,更适合信用评级建模. 展开更多
关键词 信用评级模型 数据离散 客户分类 权重调整 误判成本
原文传递
信用评级模型的特征选择方法研究 被引量:4
15
作者 夏利宇 姜天英 刘赛可 《数学的实践与认识》 北大核心 2020年第13期61-67,共7页
特征选择是信用评级建模的重要环节,合理的特征选择能够简化模型结构和提升分类效果.借鉴w-L1SVM模型的加权思想,借助Logistic-Group-Lasso模型筛选组变量的优势,提出处理信用评级特征选择问题的加权Logistic-GroupLasso(w-LGL)模型,该... 特征选择是信用评级建模的重要环节,合理的特征选择能够简化模型结构和提升分类效果.借鉴w-L1SVM模型的加权思想,借助Logistic-Group-Lasso模型筛选组变量的优势,提出处理信用评级特征选择问题的加权Logistic-GroupLasso(w-LGL)模型,该模型在选择变量时更加关注误判成本较高的违约客户,且能够实现分类变量的整组处理.与常规特征选择方法相比,w-LGL模型在数值模拟与实证研究中的分类效果更好. 展开更多
关键词 信用评级模型 特征选择 权重调整 分组变量
原文传递
国际石油价格波动对我国能源价格的影响——基于VAR模型的实证研究 被引量:1
16
作者 夏利宇 齐佳 《中国物流与采购》 2014年第1期74-75,共2页
脉冲响应函数及方差分解结论显示,我国能源价格定价机制具有不成熟性、脆弱性与被动性的特征。
关键词 能源价格 石油价格波动 VAR模型 实证研究 国际 脉冲响应函数 方差分解 不成熟性
原文传递
我国区域能源强度收敛性研究——基于省际面板数据的实证分析
17
作者 夏利宇 《中国物流与采购》 2014年第2期68-69,共2页
对于收敛性的讨论可以验证,我国东部地区能源效率水平最高,西部地区能源效率水平相对最低。经济中的收敛问题源于新古典经济增长理论,其讨论的收敛分为绝对收敛、条件收敛和俱乐部收敛。
关键词 收敛性 实证分析 面板数据 能源强度 新古典经济增长理论 省际 能源效率 俱乐部收敛
原文传递
基于重抽样法处理不平衡问题的信用评级模型 被引量:8
18
作者 夏利宇 何晓群 《管理评论》 CSSCI 北大核心 2020年第3期75-84,共10页
由于履约客户的数量远远大于违约客户,征信数据具备严重的不平衡特征,常用的处理方法较少同时考虑金融机构所关注的违约损失和市场份额因素。本文基于违约损失因素提出迭代重抽样集成模型(IRIM),利用迭代欠抽样方法提升模型对"坏&q... 由于履约客户的数量远远大于违约客户,征信数据具备严重的不平衡特征,常用的处理方法较少同时考虑金融机构所关注的违约损失和市场份额因素。本文基于违约损失因素提出迭代重抽样集成模型(IRIM),利用迭代欠抽样方法提升模型对"坏"客户的关注,采用集成方法将弱分类模型转变为强分类模型;基于市场份额因素改进常用的F-value指标,引入评价分类效果的RS指标。在6类不平衡关系下进行模拟研究,并对SSBF数据和中国某银行征信数据进行实证研究。结果表明,与常用的方法和指标相比,迭代重抽样集成模型能够在确保市场份额不过度减少的情况下降低金融机构的违约风险,RS指标能够恰当地权衡市场份额和违约风险的关系。 展开更多
关键词 信用评级模型 不平衡 迭代重抽样 评价指标
原文传递
基于GAS模型的动态VaR预测效果分析 被引量:3
19
作者 刘赛可 何晓群 夏利宇 《数理统计与管理》 CSSCI 北大核心 2022年第1期179-189,共11页
GAS模型是一种基于观测的动态模型,理论简单且应用灵活,可以直接估计VaR.将GAS模型和GARCH类模型应用于不同条件下生成的模拟数据和三个时间段的沪深300指数的日对数收益率数据,并比较模型关于VaR的预测效果。结果表明:在对称的条件分布... GAS模型是一种基于观测的动态模型,理论简单且应用灵活,可以直接估计VaR.将GAS模型和GARCH类模型应用于不同条件下生成的模拟数据和三个时间段的沪深300指数的日对数收益率数据,并比较模型关于VaR的预测效果。结果表明:在对称的条件分布下,GAS模型容易高估风险且不稳健,其表现不如GARCH类模型;但在条件分布为有偏的时,GAS模型与GARCH类模型的表现相当,部分情况下会优于GARCH类模型,尤其在实证分析中关于序列2和序列3的VaR的估计,GAS模型的预测效果较好。因此,实际应用中,对于具有较明显偏态分布或尖峰分布的数据可以考虑使用GAS模型预测动态VaR. 展开更多
关键词 动态VAR GAS模型 GARCH类模型
原文传递
处理不平衡征信数据的零膨胀信用评级模型 被引量:9
20
作者 何晓群 夏利宇 姜天英 《数理统计与管理》 CSSCI 北大核心 2019年第5期812-822,共11页
征信数据中的客户往往呈现'好多坏少'的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICS... 征信数据中的客户往往呈现'好多坏少'的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICSM),将客户结构拆分为稳定好客户、不稳定好客户和坏客户三个部分,利用模型自身优势形成严谨和宽松的两套贷款审批机制。ZICSM模型对目标函数进行权数调整,使模型更加关注'坏'客户,在目标函数中加入惩罚项,使模型具备组变量选择功能。此外,本文提出兼顾风险把控和市场份额的RS得分指标,借以评价信用评级模型的分类效果。模拟研究和实证研究的结果表明,ZICSM模型能够提升金融机构的贷款收益,增加其审批机制的灵活性,适用于处理征信数据的不平衡问题。 展开更多
关键词 信用评级模型 不平衡数据 零膨胀模型 特征选择 RS得分
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部