期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
生物统计的研究进展与挑战 被引量:6
1
作者 李扬 赵青 马双鸽 《统计研究》 CSSCI 北大核心 2016年第6期3-12,共10页
生物统计学是以解决生物学、医学、公共卫生学、农学等领域科学问题为目标的应用型学科,近年来在精准医疗的背景下得以快速发展。另一方面,生物统计研究面对的数据存在海量化、复杂化和异质化的大数据特征,对理论与应用研究者都提出了... 生物统计学是以解决生物学、医学、公共卫生学、农学等领域科学问题为目标的应用型学科,近年来在精准医疗的背景下得以快速发展。另一方面,生物统计研究面对的数据存在海量化、复杂化和异质化的大数据特征,对理论与应用研究者都提出了新的挑战。本文围绕生物统计研究中的流行病学研究、临床试验设计、生存数据分析和基因数据分析展开讨论,在介绍基本思路的基础上对最新挑战及前沿发展方向进行展望。 展开更多
关键词 流行病学 试验设计 生存分析 基因数据分析
下载PDF
大数据背景下智能手机APP组合推荐研究 被引量:7
2
作者 程豪 吕晓玲 +2 位作者 钟琰 范超 赵昱 《统计与信息论坛》 CSSCI 北大核心 2016年第6期86-91,共6页
面对当下智能手机APP种类繁多、层出不穷的局面,数据提取方案的提出和常见APP组合规律的深度挖掘已成为大数据时代的研究热点。在重新界定不同APP类别间关系度量方式的前提下,推出一套完整的关系型数据提取方案。借助社会网络可视化工... 面对当下智能手机APP种类繁多、层出不穷的局面,数据提取方案的提出和常见APP组合规律的深度挖掘已成为大数据时代的研究热点。在重新界定不同APP类别间关系度量方式的前提下,推出一套完整的关系型数据提取方案。借助社会网络可视化工具初步发现了不同APP类别间的关系程度及分布,而concor模型为APP组合的多层次划分和推荐提供了可靠的方法学依据。研究发现APP的多层次组合划分实现,对现实生活中经常同时使用的APP类别组的挖掘、划分结果具有较好的解释性和现实意义,为智能手机生产者提供了APP研发方向,并能推进智能生产和生活的发展进程。 展开更多
关键词 智能手机 APP应用程序 组合多层次划分 推荐研究
下载PDF
融合统计思想的大数据算法 被引量:5
3
作者 李扬 张长 朱建平 《统计研究》 CSSCI 北大核心 2018年第7期125-128,共4页
海量化的数据规模作为大数据的第一个特征,带来了计算上的首要挑战。大规模样本不一定能够完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法... 海量化的数据规模作为大数据的第一个特征,带来了计算上的首要挑战。大规模样本不一定能够完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法为例讨论了兼具计算效率提升和不确定性评价的可并行计算的大数据统计算法设计,通过比较分析探讨设计思想与未来的研究方向。 展开更多
关键词 自助法 不确定性 大规模数据 并行计算
下载PDF
面板数据模型的惩罚似然变量选择方法研究 被引量:7
4
作者 李扬 曾宪斌 《统计研究》 CSSCI 北大核心 2014年第3期83-89,共7页
本文针对面板数据模型的惩罚似然变量选择问题,比较研究了Lasso、Adaptive Lasso、Bridge和SCAD四种罚函数的渐近性质。模拟结果验证了在面板数据情况下,Adaptive Lasso、Bridge和SCAD的Oracle性质同样成立,且它们在变量选择准确性、参... 本文针对面板数据模型的惩罚似然变量选择问题,比较研究了Lasso、Adaptive Lasso、Bridge和SCAD四种罚函数的渐近性质。模拟结果验证了在面板数据情况下,Adaptive Lasso、Bridge和SCAD的Oracle性质同样成立,且它们在变量选择准确性、参数估计精度和模型预测精度三方面的效果都优于Lasso。为了合理选取调整参数,本文考虑AIC、BIC、GCV、Cp四种准则,通过模拟显示BIC和GCV的表现通常要优于AIC和Cp。作为实证研究,本文在面板数据框架下应用惩罚似然方法对上市公司市盈率影响因素进行选择,以期对股市投资者做出理性投资决策有一定指导价值。 展开更多
关键词 面板数据 变量选择 惩罚似然 调整参数
下载PDF
有监督Group MCP方法的稳健性研究 被引量:2
5
作者 李淞淋 李扬 易丹辉 《统计与信息论坛》 CSSCI 2014年第6期11-17,共7页
采用模拟研究的方法,分别在回归预测和分类判别两种环境中讨论有监督Group MCP方法在不同结构错误率下进行变量选择和结果预测的稳健性,并通过实例分析讨论本研究的实用价值。研究结果显示:忽略解释变量的内部结构进行变量选择会导致很... 采用模拟研究的方法,分别在回归预测和分类判别两种环境中讨论有监督Group MCP方法在不同结构错误率下进行变量选择和结果预测的稳健性,并通过实例分析讨论本研究的实用价值。研究结果显示:忽略解释变量的内部结构进行变量选择会导致很多重要解释变量被疏漏,而有监督Group MCP方法考虑了解释变量的内部结构,在结构错误率低于5%时会以不低于98%的概率选出有效解释变量,并尽量降低冗余变量被选择的可能性。此研究成果为有监督Group MCP方法的合理使用奠定了基础。 展开更多
关键词 有监督Group MCP方法 稳健性 亚健康
下载PDF
基于AUC回归的不平衡数据特征选择模型研究 被引量:12
6
作者 李扬 李竟翔 王园萍 《统计与信息论坛》 CSSCI 北大核心 2015年第5期10-16,共7页
针对不平衡数据的泛化预测和特征选择问题,提出了一种引入MCP惩罚函数的AUC回归模型(MCP-AUCR)。该模型采用考虑所有阈值信息的优化目标函数,具有处理不平衡数据的能力,并具有较好的特征选择效果;在讨论该模型定义与原理的基础上,提出... 针对不平衡数据的泛化预测和特征选择问题,提出了一种引入MCP惩罚函数的AUC回归模型(MCP-AUCR)。该模型采用考虑所有阈值信息的优化目标函数,具有处理不平衡数据的能力,并具有较好的特征选择效果;在讨论该模型定义与原理的基础上,提出相应的循环坐标下降训练算法,并通过数值模拟研究验证其优良性质;针对中国股票市场机械、设备、仪表板块中的上市公司,构建了基于MCP-AUCR的财务预警模型。研究结果显示:该财务预警模型可以选择出可解释的重要财务指标并进行有效预测,显著优于传统模型。 展开更多
关键词 AUC回归 MCP惩罚 特征选择 财务预警
下载PDF
基于异质性数据的Logit变量选择模型研究 被引量:5
7
作者 斯介生 李扬 谢邦昌 《统计研究》 CSSCI 北大核心 2017年第12期110-118,共9页
在大数据时代,数据的异质性和变量的稀疏性是不可回避的两大问题。本文针对上述问题构建了异质性Logit变量选择模型。研究显示,在不同的异质性条件下,本文的方法可以明显区分有效变量和冗余变量。而且,通过Gmeans等评价指标可知该模型... 在大数据时代,数据的异质性和变量的稀疏性是不可回避的两大问题。本文针对上述问题构建了异质性Logit变量选择模型。研究显示,在不同的异质性条件下,本文的方法可以明显区分有效变量和冗余变量。而且,通过Gmeans等评价指标可知该模型具有很好的预测效果。在对上市公司财务预警分析的应用研究中,本文方法得到了具有解释意义的结果,说明该方法具有一定的实证价值。 展开更多
关键词 异质性 变量选择 财务预警
下载PDF
统计数据在住院医疗费用监控中的应用
8
作者 易丹辉 《中国医疗保险研究》 2005年第9期14-17,共4页
利用数据发现问题、寻找原因、提出对策、跟踪效果的过程,就是“求医疗保险客观规律之真、务医疗保险工作之实”的过程。充分利用数据,分析挖掘其包含的有用信息,无论对于医疗保险的宏观管理还是微观管理都有着极为重要的作用。
关键词 住院医疗费用 统计数据 医疗保险工作 应用 监控 客观规律 微观管理 宏观管理 利用
下载PDF
大数据分析仍需要统计思想-以ARGO模型为例 被引量:3
9
作者 林存洁 李扬 《统计研究》 CSSCI 北大核心 2016年第11期109-112,共4页
在大数据时代,传统的统计学是否还有用武之地引起很多争议。本文以ARGO模型为案例,介绍了统计方法在大数据分析中的应用和取得的成果,并从统计学的角度出发,提出改进的措施与方法。通过ARGO模型的分析结果发现,大数据分析的很多根本性... 在大数据时代,传统的统计学是否还有用武之地引起很多争议。本文以ARGO模型为案例,介绍了统计方法在大数据分析中的应用和取得的成果,并从统计学的角度出发,提出改进的措施与方法。通过ARGO模型的分析结果发现,大数据分析的很多根本性问题仍然是统计问题,而数据中的统计规律仍然是数据分析要挖掘的最大价值,这也意味着统计思想在大数据分析中只能越来越重要。而对于结构复杂、来源多样的大数据来说,统计学方法也需要新的探索和尝试,这将是统计学所面临的机遇和挑战。 展开更多
关键词 流感预测 时间序列 变量选择
下载PDF
一种综合变量构建方法的探讨 被引量:2
10
作者 程豪 易丹辉 +1 位作者 胡镜清 杨燕 《统计与决策》 CSSCI 北大核心 2017年第3期21-23,共3页
现有综合变量构建方法往往存在一些局限,文章提出偏最小二乘—二阶因子模型,无需独立性假定及权重的主观赋权方式,兼顾真实数据的结构特征。通过以简单线性相加方法为参照,以《中医宗气评估调查表》的量表数据为例,借助ROC曲线对比研究... 现有综合变量构建方法往往存在一些局限,文章提出偏最小二乘—二阶因子模型,无需独立性假定及权重的主观赋权方式,兼顾真实数据的结构特征。通过以简单线性相加方法为参照,以《中医宗气评估调查表》的量表数据为例,借助ROC曲线对比研究两种方法在综合变量构建方面的差异。研究表明,偏最小二乘—二阶因子模型突出利用变量间相关性刻画结构关系,提高了综合变量对目标变量的判对率和评估效率。 展开更多
关键词 综合变量构建方法 偏最小二乘—二阶因子模型 中医宗气指数
下载PDF
大规模数据的随机森林算法 被引量:11
11
作者 李扬 祁乐 聂佩芸 《统计与信息论坛》 CSSCI 北大核心 2020年第6期24-33,共10页
信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算效率较低的问题,研究者结合“分治”思想提出了一种分析框架,... 信息技术的高速发展提升了人们生产、收集数据的能力,越来越多的数据呈现出海量化、高维化的特征。这类大规模数据的出现给统计分析带来计算效率方面的挑战。为有效解决计算效率较低的问题,研究者结合“分治”思想提出了一种分析框架,并以随机森林算法为例内嵌其中得到大规模随机森林算法(BLOCK-SDB-RF)。研究者从数据覆盖率及时间复杂度两方面对该算法的优势进行分析,同时通过数值模拟探究了BLOCK-SDB-RF算法的应用效果。数值模拟结果显示:1.随着数据样本量、特征维度的增加,该算法在计算效率上的优势愈发明显;2.尽管变量间的相关性对该算法的计算效率影响并不明显,但随着相关性的增加,研究者需要牺牲一部分预测精度。在实证分析中,研究者以音乐流媒体服务商KKBOX提供的日志数据为例,进一步讨论了BLOCK-SDB-RF算法在大规模高维实际数据分析中的作用。 展开更多
关键词 大数据 计算效率 随机森林 分布式计算
下载PDF
社会网络分析视角下复杂网络结构关系的综合测度 被引量:1
12
作者 程豪 易丹辉 《统计与决策》 CSSCI 北大核心 2017年第7期14-17,共4页
为了克服复杂网络节点数量繁多、结构关系不易测度的难题,文章提出一种社会网络分析视角下"以点界面"的研究思路。通过构建一个新的综合测度指标,完成对网络中节点的综合评价,实现对网络结构关系的测度。与现有社会网络单一... 为了克服复杂网络节点数量繁多、结构关系不易测度的难题,文章提出一种社会网络分析视角下"以点界面"的研究思路。通过构建一个新的综合测度指标,完成对网络中节点的综合评价,实现对网络结构关系的测度。与现有社会网络单一测度指标相比,综合测度指标突破现有单一测度指标的局限,构建过程充分利用单一测度指标间关系规律。复杂网络仿真实验进一步表明,无论有中心结构的网络结构和无中心结构的网络结构,综合测度指标提高网络节点不同评价维度和网络角色自带信息的利用率,对网络中节点的全面刻画更为贴切,为复杂网络结构关系综合测度研究提供一种新工具,为提高生活生产效率、预防灾害负面影响提供参考和依据。 展开更多
关键词 复杂网络 社会网络 结构关系 单一测度指标 综合测度指标
下载PDF
大数据背景下的谷歌翻译--现状与挑战 被引量:18
13
作者 斯介生 宋大我 李扬 《统计研究》 CSSCI 北大核心 2016年第5期109-112,共4页
在大数据时代,如何通过数据分析挖掘事物的内在规律是人们需要思考的问题。谷歌翻译基于"最好的表达为出现频率最高的表达"这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,详细分析了案例背景、实现过程,并给出... 在大数据时代,如何通过数据分析挖掘事物的内在规律是人们需要思考的问题。谷歌翻译基于"最好的表达为出现频率最高的表达"这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,详细分析了案例背景、实现过程,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当前的方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。 展开更多
关键词 谷歌翻译 统计机器翻译 最大熵 最小误差率损失
下载PDF
对PLS路径模型在综合评价应用中“优势”的审视 被引量:2
14
作者 斯介生 李扬 +1 位作者 肖宏伟 蒋远营 《现代管理科学》 CSSCI 2014年第10期105-107,共3页
近年来,PLS路径模型在综合评价领域有很多应用。文章针对该方法在综合评价应用中的公认"优势"进行了分析,对这些优势进行了客观的评价,并给出利用该方法进行综合评价的建议。
关键词 PLS路径模型 综合评价 审视
下载PDF
大数据时代的整合调查设计——以校园满意度调查为例 被引量:3
15
作者 边策 祁乐 李扬 《调研世界》 CSSCI 2020年第4期56-61,共6页
为应对大数据时代下,面向学生群体的大规模抽样调查所面临的研究成本高与研究效率低的挑战,本文利用整合调查设计方法探索解决方案,并以中国人民大学校园满意度调查为例展开应用讨论。该方法通过模拟退火算法对调查成本函数进行优化,得... 为应对大数据时代下,面向学生群体的大规模抽样调查所面临的研究成本高与研究效率低的挑战,本文利用整合调查设计方法探索解决方案,并以中国人民大学校园满意度调查为例展开应用讨论。该方法通过模拟退火算法对调查成本函数进行优化,得出问卷拆分的最优组合及每份子问卷对应的样本量。实证结果表明:整合调查设计有效降低了每份子问卷包含的题目数量,减轻了受访者的受访负担;同时,由于对不同题目上样本量的分布进行了优化,在保障估计精度的条件下降低了调查的总成本。整合调查设计方法为抽样调查提供了一种全新的改进思路以适应时代发展的需要,同时该方法的应用并不局限于某个领域的调查,对于其他问卷较长、样本量较高的调查同样适用。 展开更多
关键词 整合调查设计 大规模学生调查 模拟退火算法 成本函数 问卷拆分
下载PDF
基于分位回归的偏最小二乘算法的应用 被引量:2
16
作者 程豪 易丹辉 《统计与决策》 CSSCI 北大核心 2019年第2期17-19,共3页
文章通过真实数据,对基于分位回归的最小二乘(PLS)算法进行应用研究。一方面保留原PLS无独立性假定、无数据分布要求、兼顾变量间关系、数值计算结果客观等性质,另一方面利用分位回归不要求样本同质性、不受离群点影响等优势,完成应用... 文章通过真实数据,对基于分位回归的最小二乘(PLS)算法进行应用研究。一方面保留原PLS无独立性假定、无数据分布要求、兼顾变量间关系、数值计算结果客观等性质,另一方面利用分位回归不要求样本同质性、不受离群点影响等优势,完成应用研究。结果表明,基于分位回归的PLS算法避免样本异质性和数据离群点带来的困扰,不拘泥于展示数据信息的平均水平,详实展示不同分位数下数据全貌,更好地揭示变量间关系规律。 展开更多
关键词 分位回归 PLS 二阶因子模型
下载PDF
基于真实世界晚期消化道恶性肿瘤中西医结合治疗研究的统计方法探索
17
作者 杨晓晨 陈悦 +3 位作者 孙韬 林存洁 刘剑 易丹辉 《北京中医药大学学报》 CAS CSCD 北大核心 2022年第5期452-458,共7页
目的基于新的统计分析方法,利用真实世界数据探究尽早接受中西医结合治疗是否可以延长晚期消化道恶性肿瘤患者的生存时间。方法基于左截断数据,通过Copula模型构建IV期诊断时间到中西医结合治疗时间与IV期生存时间之间的联合模型。以Cop... 目的基于新的统计分析方法,利用真实世界数据探究尽早接受中西医结合治疗是否可以延长晚期消化道恶性肿瘤患者的生存时间。方法基于左截断数据,通过Copula模型构建IV期诊断时间到中西医结合治疗时间与IV期生存时间之间的联合模型。以Copula相关性参数η的估计值和显著性结果作为IV期诊断时间到治疗时间与IV期生存时间相关性的评价指标。结果数值模拟显示本研究方法在左截断比例为20%时表现较好。实际数据分析中Copula相关性参数的估计值为0.279(P<0.05),表明中西医结合治疗起始时间与IV期生存时间存在显著相关性,性别、美国东部肿瘤协作组评分、既往是否靶向治疗及转移部位1为影响IV期生存时间的显著因素。结论新统计方法可以为中西医结合治疗晚期消化道恶性肿瘤患者的有效性提供有价值的观点和分析工具。 展开更多
关键词 COPULA 相依左截断 中西医结合 联合模型 生存分析
原文传递
基于主题模型的半监督网络文本情感分类研究 被引量:6
18
作者 李扬 孔雯婧 谢邦昌 《数理统计与管理》 CSSCI 北大核心 2016年第6期961-971,共11页
针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评... 针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。 展开更多
关键词 情感分类 不平衡数据 半监督学习 主题模型
原文传递
改进的神经网络综合评价模型研究 被引量:4
19
作者 李扬 孙泽烨 胡镜清 《数学的实践与认识》 北大核心 2015年第10期59-68,共10页
针对神经网络综合评价模型的解释缺失和信息损失问题,提出了一种引入专家系统和模糊系统的改进模型,模型利用专家系统提供评价结果的合理解释,利用模糊系统减少评价结果的信息损失,旨在提高评价结果的准确性和可信度.讨论了模型的定义... 针对神经网络综合评价模型的解释缺失和信息损失问题,提出了一种引入专家系统和模糊系统的改进模型,模型利用专家系统提供评价结果的合理解释,利用模糊系统减少评价结果的信息损失,旨在提高评价结果的准确性和可信度.讨论了模型的定义和原理,通过模拟验证后,将改进的神经网络综合评价模型应用于大气环境承载力评价,以期为衡量社会经济发展和大气环境的协调程度提供一定参考. 展开更多
关键词 综合评价 神经网络 专家系统 模糊系统
原文传递
基于曲线段特征匹配的股价预测研究 被引量:1
20
作者 赵建喜 李雪飞 +1 位作者 易丹辉 严高剑 《数学的实践与认识》 北大核心 2018年第1期75-82,共8页
提出了一种基于指数平滑去噪、曲线段特征匹配、股价预测及修正的择时量化交易策略.利用不同次数的指数平滑法去除不同波动样式的股价噪声,采用加权求和曲线段特征历史匹配法寻找与预测曲线段九种特征最相似的曲线段,基于斜率公式预... 提出了一种基于指数平滑去噪、曲线段特征匹配、股价预测及修正的择时量化交易策略.利用不同次数的指数平滑法去除不同波动样式的股价噪声,采用加权求和曲线段特征历史匹配法寻找与预测曲线段九种特征最相似的曲线段,基于斜率公式预测未来一天的股价,使用最临近股价的离差修正预测值.进一步,讨论了K线基本信号走势的分类情况.用2006.04.18至2017.02.24期间“中证500”“沪深300”和“上证综指”三支股指约11年的日收盘价数据分别作回测,结果优良.此外,分析了策略的三种适用情形. 展开更多
关键词 量化交易 择时 指数平滑法 特征匹配 股价预测
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部