期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
数据偏斜分布下的二维Hilbert编解码算法 被引量:2
1
作者 贾连印 孔明 +3 位作者 王维晨 李孟娟 游进国 丁家满 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第9期1426-1434,共9页
高效的Hilbert曲线的编解码算法作为Hilbert曲线应用的基础,具有重要的研究意义。现有算法多未考虑数据偏斜分布的影响,因此在数据偏斜分布时效率较低。该文发现:对于特定的前m阶坐标,其对应的前m阶编码值与其第1阶编码值呈现特定的倍... 高效的Hilbert曲线的编解码算法作为Hilbert曲线应用的基础,具有重要的研究意义。现有算法多未考虑数据偏斜分布的影响,因此在数据偏斜分布时效率较低。该文发现:对于特定的前m阶坐标,其对应的前m阶编码值与其第1阶编码值呈现特定的倍数关系;对于特定的前m阶编码值,其对应的前m阶坐标与其第1阶坐标呈现特定的倍数关系。基于这一发现,在融合高效位操作、快速置位检测等技术的基础上,提出了跳过前m阶的编码(skipping the first m orders Hilbert encoding, SFO-HE)算法和跳过前m阶的解码(skipping the first m orders Hilbert decoding, SFO-HD)算法。这2个算法无需对前m阶逐阶编解码,可有效提高数据向Hilbert空间4个顶点偏斜时的编解码效率。扩展实验表明:该文算法对数据偏斜分布具有更好的适应性,在特定偏斜分布时效率大幅优于现有算法。 展开更多
关键词 HILBERT曲线 状态视图 偏斜分布 编解码算法
原文传递
基于偏斜正态分布的零膨胀负二项层次回归模型的贝叶斯分析 被引量:2
2
作者 张晓琳 付英姿 褚培肖 《统计与决策》 CSSCI 北大核心 2016年第2期8-12,共5页
零膨胀负二项(ZINB)层次回归模型是分析散度偏大集群计数数据的有力工具,该模型的基本假设是随机效应和随机误差均服从正态分布。然而,在许多实际应用中,上述假设缺乏稳健性,且相关研究表明,个体内的随机误差以及随机效应将共同导致数... 零膨胀负二项(ZINB)层次回归模型是分析散度偏大集群计数数据的有力工具,该模型的基本假设是随机效应和随机误差均服从正态分布。然而,在许多实际应用中,上述假设缺乏稳健性,且相关研究表明,个体内的随机误差以及随机效应将共同导致数据的非正态性特征。基于上述原因,文章将重点考虑基于偏斜正态分布的ZINB层次回归模型的贝叶斯分析问题,与经典的基于似然的方法相比,贝叶斯分析方法具有建模灵活,计算相对简便的优势,特别适合于层次结构较为复杂的模型。 展开更多
关键词 零膨胀负二项分布 层次回归模型 正态分布 贝叶斯分析方法
下载PDF
基于粒子群优化的偏斜α稳定分布参数估计 被引量:2
3
作者 李静威 全厚德 崔佩璋 《电波科学学报》 EI CSCD 北大核心 2013年第1期163-168,共6页
基于粒子群优化算法,结合偏斜α稳定分布的分数低阶矩性质,提出了一种新的α稳定分布参数估计方法.针对已有方法无法实现多个参数同时估计的不足,结合α稳定分布分数低阶矩的特点,首先判断出对称参数的符号以及分数低阶矩阶数的取值范围... 基于粒子群优化算法,结合偏斜α稳定分布的分数低阶矩性质,提出了一种新的α稳定分布参数估计方法.针对已有方法无法实现多个参数同时估计的不足,结合α稳定分布分数低阶矩的特点,首先判断出对称参数的符号以及分数低阶矩阶数的取值范围,进而确定目标函数.仿真试验结果表明:所提方法可以同时给出3个参数的估值,验证了该方法的有效性,同时与Kuru-FLOM相比在精度上有所提高或相当. 展开更多
关键词 分数低阶矩 粒子群优化 α稳定分布 参数估计
下载PDF
偏斜正态分布下的ZIP层次回归模型的贝叶斯方法 被引量:1
4
作者 吕敏红 闫奕荣 《统计与决策》 CSSCI 北大核心 2018年第19期80-82,共3页
零膨胀泊松回归模型(ZIP)是研究零过多的计数数据的有力工具。经典的分析理论总是对随机效应和随机误差作正态分布的假设,但是在实际问题中,正态假设可能会导致无效的统计结论。为此,文章考虑了随机误差和随机效应服从偏斜正态分布的... 零膨胀泊松回归模型(ZIP)是研究零过多的计数数据的有力工具。经典的分析理论总是对随机效应和随机误差作正态分布的假设,但是在实际问题中,正态假设可能会导致无效的统计结论。为此,文章考虑了随机误差和随机效应服从偏斜正态分布的ZIP层次回归模型的贝叶斯分析问题,最后用一个实例说明该方法的有效性。 展开更多
关键词 零膨胀 正态分布 层次回归模型 贝叶斯方法
下载PDF
基于两参数偏斜正Logistic失效分布的可靠性统计分析 被引量:1
5
作者 李争 徐晓岭 《兵器装备工程学报》 CAS 2017年第10期181-184,共4页
提出了一种新的寿命分布——两参数偏斜正Logistic失效分布,研究了其概率密度函数、失效率函数的图像特征;给出了k阶矩的表达式和参数的极大似然估计,运用bootstrap方法得到了参数的区间估计;通过模拟算例说明本方法的可行性。
关键词 两参数正Logistic失效分布 概率密度函数 失效率函数 极大似然估计 MONTE-CARLO模拟
下载PDF
证券市场对数收益率的广义偏斜t分布
6
作者 杨昕 《统计学与应用》 2014年第4期141-147,共7页
本文的主要问题是研究证券市场中对数收益率的分布特征。对上证指数、深证成指、工业指数、地产指数、消费服务和食品饮料等6个指数一个年度的交易日的收盘数据,利用统计检验方法进行实证分析,分析结果表明:证券指数的对数收益率不服从... 本文的主要问题是研究证券市场中对数收益率的分布特征。对上证指数、深证成指、工业指数、地产指数、消费服务和食品饮料等6个指数一个年度的交易日的收盘数据,利用统计检验方法进行实证分析,分析结果表明:证券指数的对数收益率不服从正态分布,具有尖峰、厚尾、偏斜等特征,它们均以较大的概率被接受为服从广义偏斜t分布,所以广义偏斜t分布是研究证券市场对数收益率的合理分布。 展开更多
关键词 证券指数 对数收益率 广义t分布
下载PDF
一种基于类别分布的增量特征选择算法 被引量:1
7
作者 石莉 李敏 孙慧慧 《宿州学院学报》 2014年第11期75-78,共4页
样本数量分布不平衡时,特征的分布同样会不平衡。大类别中经常出现的特征,在小类别中很少出现或者根本不出现,使得分类器被大类别所淹没,小类别的识别率很低。为此,根据数据的类别分布提出一种基于差异系数的增量特征选择算法CVIFS(Coef... 样本数量分布不平衡时,特征的分布同样会不平衡。大类别中经常出现的特征,在小类别中很少出现或者根本不出现,使得分类器被大类别所淹没,小类别的识别率很低。为此,根据数据的类别分布提出一种基于差异系数的增量特征选择算法CVIFS(Coefficient Variance-based Incremental Feature Selection),选取最具有区分能力的特征,提高小类别的识别率,使用区间估计检测概念漂移。经实验验证,该算法处理偏斜数据流时优于信息增益,具有较低的均衡误差率(Balanced Error Rate BER)。 展开更多
关键词 概念漂移 偏斜分布 差异系数 信息增益
下载PDF
关于铅锌原矿Pb、Zn品位分布状况的研究 被引量:1
8
作者 孔建新 尹家明 《云南冶金》 2007年第6期54-59,共6页
铅锌矿所采出原矿的Pb、Zn品位在出矿随机取样分析时所得到的检测结果的统计分布状况同时也反映了矿产资源在一定的地质条件下所生成的地质原矿金属品位的分布。根据统计资料对原矿的Pb、Zn品位分布状况进行研究,目的就是找出其分布规律... 铅锌矿所采出原矿的Pb、Zn品位在出矿随机取样分析时所得到的检测结果的统计分布状况同时也反映了矿产资源在一定的地质条件下所生成的地质原矿金属品位的分布。根据统计资料对原矿的Pb、Zn品位分布状况进行研究,目的就是找出其分布规律,以建立其分布的概率密度函数,结合探矿时矿体的资料科学地计算出原矿Pb、Zn品位分布区间的概率。以便更准确地推断矿产资料储有量。 展开更多
关键词 分布规律 偏斜分布 质量指标 众数 概率密度函数
下载PDF
针对训练集分布偏斜问题的数字资源文本分类方法 被引量:2
9
作者 李湘东 何海红 +1 位作者 曹环 黄莉 《现代图书情报技术》 CSSCI 北大核心 2014年第7期24-33,共10页
【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法 B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利... 【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法 B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模的限制,构造训练集进行实验时,只涉及部分偏斜情况;此外,实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。 展开更多
关键词 分布 粒划分 概率主题模型 文本分类 数字资源
原文传递
基于分布偏斜训练集的特征选择方法研究 被引量:2
10
作者 李湘东 曹环 黄莉 《情报理论与实践》 CSSCI 北大核心 2015年第4期139-144,共6页
针对传统特征选择方法在处理分布偏斜问题时存在的局限性,结合分布偏斜训练集自身的特点,探讨并提出基于改进的LDA模型的特征选择方法。新方法根据类别信息强度及类偏斜程度对特征项分配不同的权重来调整数据分布的不均衡性,并根据类交... 针对传统特征选择方法在处理分布偏斜问题时存在的局限性,结合分布偏斜训练集自身的特点,探讨并提出基于改进的LDA模型的特征选择方法。新方法根据类别信息强度及类偏斜程度对特征项分配不同的权重来调整数据分布的不均衡性,并根据类交叠程度降低相似主题的权重,最后利用改进的LDA模型训练分类器。与传统特征选择方法相比,改进后的LDA模型方法在不同偏斜程度训练集上整体分类性能有1.1%至4.7%的提高。新方法可有效提高分布偏斜训练集的分类性能。 展开更多
关键词 分布 概率主题模型 特征选择 权重调整 文本分类
原文传递
对数收益率的偏斜Logistic分布与VaR估计 被引量:4
11
作者 杨昕 《数理统计与管理》 CSSCI 北大核心 2011年第3期548-553,共6页
本文通过直方图和Q-Q图的直观方法展示了上证指数和深证指数的对数收益率具有尖峰厚尾和偏斜的分布特征,利用Shapiro-Wilk正态性检验和Kolmogorov-Smirnov检验等方法检验了对数收益率的分布与正态分布有显著性差异,并以较大的概率水平... 本文通过直方图和Q-Q图的直观方法展示了上证指数和深证指数的对数收益率具有尖峰厚尾和偏斜的分布特征,利用Shapiro-Wilk正态性检验和Kolmogorov-Smirnov检验等方法检验了对数收益率的分布与正态分布有显著性差异,并以较大的概率水平接受了对数收益率服从偏斜Logistic分布,同时给出了基于偏斜Logistic分布的VaR风险量的估计,结果显示上证指数的风险小于深证指数的风险。 展开更多
关键词 对数收益率 Logistic分布 尖峰厚尾 非对称 风险量
原文传递
Bloom Filters散列函数数目多阶段动态优化算法 被引量:1
12
作者 张伟 王汝传 《电子学报》 EI CAS CSCD 北大核心 2011年第4期877-881,共5页
标准Bloom Filters在操作前需要知道数据集合中不同元素数目才能确定最佳的Hash函数数目,但是数据集的分布情况并不容易事先获得.本文提出一种多阶段Hash函数数目动态优化的Bloom Filters(Multi-stage Dynamicoptimization Bloom Filter... 标准Bloom Filters在操作前需要知道数据集合中不同元素数目才能确定最佳的Hash函数数目,但是数据集的分布情况并不容易事先获得.本文提出一种多阶段Hash函数数目动态优化的Bloom Filters(Multi-stage Dynamicoptimization Bloom Filters,MDBF),它将元素插入过程分为多个阶段,在每个阶段根据比特向量的使用情况分析插入元素的分布,动态调整最优的Hash函数数目.实验表明MDBF能够适应元素多样性和偏斜分布的复杂情况,选择最优的Hash函数数目,获得更低的误检率. 展开更多
关键词 BLOOM FILTERS HASH函数 偏斜分布 误检率
下载PDF
也谈中位数、众数与算术平均数的关系 被引量:2
13
作者 白雪梅 赵松山 《江苏统计》 1997年第5期9-11,共3页
也谈中位数、众数与算术平均数的关系□文/东北财经大学白雪梅赵松山《江苏统计》1997年第一期刊登了朱龙杰同志关于“对中位数与众数、算术平均数关系的质疑”一文《以下简称朱文),读后引起了我们的思考。本文是在朱文基础上,... 也谈中位数、众数与算术平均数的关系□文/东北财经大学白雪梅赵松山《江苏统计》1997年第一期刊登了朱龙杰同志关于“对中位数与众数、算术平均数关系的质疑”一文《以下简称朱文),读后引起了我们的思考。本文是在朱文基础上,对中位数、众数与算术平均数的关系作... 展开更多
关键词 算术平均数 中位数 次数分配 偏斜分布 众数 变量值 等差数列 对称分布 次数分布 分布
下载PDF
实时数据仓库中一种改进的数据流更新算法 被引量:2
14
作者 潘郑冰 戴牡红 《计算机工程》 CAS CSCD 2014年第10期43-46,51,共5页
为实现数据仓库中数据的高效集成,针对数据偏斜分布现象,提出一种改进的数据流更新算法EH-JOIN。该算法对传统散列连接方法进行改进,利用索引将部分频繁使用的主数据存储在内存中,解决了高速数据流下的磁盘频繁访问问题。实验结果表明,... 为实现数据仓库中数据的高效集成,针对数据偏斜分布现象,提出一种改进的数据流更新算法EH-JOIN。该算法对传统散列连接方法进行改进,利用索引将部分频繁使用的主数据存储在内存中,解决了高速数据流下的磁盘频繁访问问题。实验结果表明,与MESHJOIN算法和R-MESHJOIN算法相比,EH-JOIN算法的服务速率在磁盘存储关系集保持适当大小时分别提高了96%和81%,在内存大小不同时提高了57%和48%。 展开更多
关键词 实时数据仓库 数据转换 数据流更新 基于流的连接 哈希索引 偏斜分布
下载PDF
中位数、算术平均数和众数关系之我见 被引量:4
15
作者 徐景范 《统计与咨询》 1999年第4期17-17,共1页
在一些社会经济统计学原理教材中,大都介绍了算术平均数()、中位数(Me)和众数(Mo)三者之间的关系。在对称的钟形分布中,以算术平均数为对称轴,两边的次数相等,因此,有=Me=Mo的关系。在非对称钟形分布(亦称偏斜分布)中,众数、中位数与算... 在一些社会经济统计学原理教材中,大都介绍了算术平均数()、中位数(Me)和众数(Mo)三者之间的关系。在对称的钟形分布中,以算术平均数为对称轴,两边的次数相等,因此,有=Me=Mo的关系。在非对称钟形分布(亦称偏斜分布)中,众数、中位数与算术平均数之间就存在一定的差别。当次数分布右偏时有:Mo【Me【关系;当次数分布为左偏时有:【Me【Mo的关系。即,根据次数分布的偏斜情况,算术平均数或大于众数,或小于众数,而中位数总居于两者之间。 在偏斜适度的情况下,得出下面三个经验关系式: 展开更多
关键词 算术平均数 中位数 众数 钟形分布 次数分布 偏斜分布 算数平均数 统计学原理 社会经济 正态分布
下载PDF
改进的K-均值聚类邮件过滤算法 被引量:1
16
作者 包理群 李祥林 《兰州工业高等专科学校学报》 2010年第2期5-9,共5页
分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类... 分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类的垃圾邮件过滤算法.实验表明此方法能较好地适应概念漂移和偏斜类分布现象. 展开更多
关键词 垃圾邮件过滤 概念漂移 分布 K-均值聚类算法
下载PDF
中国股市波动率预测——基于已实现EGARCH模型和已实现SVL模型的实证比较研究
17
作者 吴鑫育 王小娜 王海运 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第7期231-241,共11页
通过采用上证综合指数数据,对已实现EGARCH(REGARCH)模型与已实现SVL(RSVL)模型在不同分布设定(正态分布、学生t分布与偏斜学生t分布)以及样本外阶段(预测总样本期、高波动期与低波动期)下的波动率预测表现进行实证比较研究。结果表明:... 通过采用上证综合指数数据,对已实现EGARCH(REGARCH)模型与已实现SVL(RSVL)模型在不同分布设定(正态分布、学生t分布与偏斜学生t分布)以及样本外阶段(预测总样本期、高波动期与低波动期)下的波动率预测表现进行实证比较研究。结果表明:在预测总样本期,REGARCH模型在3种分布下的样本外预测表现都优于RSVL模型,REGARCH模型在各分布下的样本外预测表现取决于选择的损失函数;在预测高波动期,其与预测总样本期具有相似的结论,但REGARCH模型在偏斜t分布下的预测表现最佳;在预测低波动期,其与预测总样本期的结论相反,即RSVL模型在3种分布下的样本外预测表现都优于REGARCH模型,RSVL模型在各分布下的样本外预测表现取决于选择的损失函数。 展开更多
关键词 已实现EGARCH 已实现SVL 杠杆效应 已实现核 波动率预测 学生t分布
下载PDF
考察极端数值 改进数据质量
18
作者 孙建华 《江苏统计》 2002年第8期21-21,共1页
使用历史数据须审慎 ,应先考察其可信度 。
关键词 极端值 偏斜分布 基本单位普查 统计数据质量 中国
下载PDF
基于双成分已实现EGARCH模型的VaR度量研究 被引量:6
19
作者 吴鑫育 谢海滨 李心丹 《数理统计与管理》 CSSCI 北大核心 2021年第3期556-570,共15页
在对资产收益率和已实现波动率测度同时建模的已实现EGARCH模型的基础上,将资产收益率的波动率分解为两个成分:长期成分与短期成分,并引入偏斜t分布描述资产收益率的分布,构建了双成分已实现EGARCH模型对VaR进行测度.构建的模型充分利... 在对资产收益率和已实现波动率测度同时建模的已实现EGARCH模型的基础上,将资产收益率的波动率分解为两个成分:长期成分与短期成分,并引入偏斜t分布描述资产收益率的分布,构建了双成分已实现EGARCH模型对VaR进行测度.构建的模型充分利用了高频与低频数据信息,能够迅速捕捉大的市场波动,同时能够捕获波动率非对称性(杠杆效应)与长记忆性,充分刻画资产收益率的偏斜、尖峰厚尾分布特征,具有较高的建模灵活性,且易于实现.采用上证综合指数和深证成分指数日内高频数据,对双成分已实现EGARCH模型进行了实证研究,结果表明:沪深股市波动率具有高度的持续性以及显著的杠杆效应,且杠杆效应主要体现在短期波动率成分中;双成分已实现EGARCH模型相比单成分已实现波动率模型—已实现GARCH模型和已实现EGARCH模型不仅具有更好的样本内数据拟合效果,而且具有更为优越的样本外VaR预测效果. 展开更多
关键词 双成分已实现EGARCH模型 杠杆效应 长记忆 t分布 VAR
原文传递
全面画像 而非简单指标 被引量:6
20
作者 Jonathan Adams Marie McVeigh +1 位作者 David Pendlebury Martin Szomszor 《科学观察》 2019年第4期58-65,共8页
本报告强调:当有关科研人员及其机构的数据被压缩为简单的指标和排名时,有些信息将会遗失。本报告阐述了四类常见分析,如若误用将掩盖真实的科研表现;我们提出了四种可视化选项,用于解读每个度量指标下蕴含的更丰富的信息,以支持开展全... 本报告强调:当有关科研人员及其机构的数据被压缩为简单的指标和排名时,有些信息将会遗失。本报告阐述了四类常见分析,如若误用将掩盖真实的科研表现;我们提出了四种可视化选项,用于解读每个度量指标下蕴含的更丰富的信息,以支持开展全面的、负责任的科研管理。我们身边依然存在着声称可通过简单分析来评估论文、科研人员和机构表现的现象。 展开更多
关键词 影响力 偏斜分布 大学排名 百分位数 发文量
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部