期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
优化合成样本分布的加权过采样方法 被引量:1
1
作者 张忠林 赵喆梅 马海云 《统计与决策》 CSSCI 北大核心 2024年第4期50-55,共6页
针对不均衡数据分类问题中原有过采样方法在生成样本分布上存在的不足,文章提出改进合成样本分布的加权过采样方法——WKSMOTE(Weighted SMOTE for WKMeans preprocess)。首先,应用聚类算法中的WKMeans算法对原数据集进行预处理,进而划... 针对不均衡数据分类问题中原有过采样方法在生成样本分布上存在的不足,文章提出改进合成样本分布的加权过采样方法——WKSMOTE(Weighted SMOTE for WKMeans preprocess)。首先,应用聚类算法中的WKMeans算法对原数据集进行预处理,进而划分少数类样本,使每个样本生成不同数量的新样本;然后,应用SMOTE算法合成新样本,增强决策边界;最后,将过采样后的均衡数据集在随机森林分类器中进行训练。实验结果表明,WKSMOTE方法对不均衡数据集的整体分类性能有一定的提升,验证了方法的有效性。 展开更多
关键词 不均衡数据 样本分布 SMOTE算法 样本权重 随机森林
下载PDF
基于样本分布的类别均衡化方法
2
作者 李国和 陈桂婷 +3 位作者 郑艺峰 洪云峰 周晓明 潘雪玲 《计算机工程与设计》 北大核心 2023年第9期2626-2633,共8页
为解决样本类别不均衡问题,提出基于样本分布的类别均衡化算法。采用单类支持向量机和近邻法学习多数类样本,净化类别不清的分布边界;采用密度聚簇算法对少数类样本聚簇,根据每个类簇的权重决定每个类簇生成的样本数,平衡类簇间的样本数... 为解决样本类别不均衡问题,提出基于样本分布的类别均衡化算法。采用单类支持向量机和近邻法学习多数类样本,净化类别不清的分布边界;采用密度聚簇算法对少数类样本聚簇,根据每个类簇的权重决定每个类簇生成的样本数,平衡类簇间的样本数量;根据每个簇的边界样本与非边界样本数量比值,确定每个样本权重,采用SMOTE合成少数类样本。采用UCI数据集实验对比和地震数据分析应用,验证了算法在不同分类模型均可提高分类精度。 展开更多
关键词 不均衡数据 过采样 单类支持向量机 密度聚类 样本类别均衡化 样本分布 分类
下载PDF
基于样本分布特征的数据投毒防御 被引量:2
3
作者 杨立圣 罗文华 《计算机应用研究》 CSCD 北大核心 2023年第9期2845-2850,共6页
流量分类模型在更新过程中易受数据污染的干扰而降低模型性能,现有基于数据清洗的防御方法需依赖专家经验和人工筛选,且无法有效应对利用未知分布样本构造的投毒攻击。针对上述问题,受分布外检测和判别主动学习的启发,设计一种基于样本... 流量分类模型在更新过程中易受数据污染的干扰而降低模型性能,现有基于数据清洗的防御方法需依赖专家经验和人工筛选,且无法有效应对利用未知分布样本构造的投毒攻击。针对上述问题,受分布外检测和判别主动学习的启发,设计一种基于样本分布特征的数据投毒防御方法,通过二分类判别器筛选每轮新增样本中的已知及未知分布样本。对于新增的已知分布样本,通过模型预测与标注结果一致率评估新增样本的数据质量,决定是否进行模型更新;对于新增的未知分布样本,则利用基于标注正确率的少样本抽检评估样本可用性。实验结果表明,该方法在抵御数据投毒攻击的同时可以保证模型准确率,并有效识别利用未知分布样本构造的数据投毒攻击。 展开更多
关键词 AI安全 流量分类模型 数据投毒攻击 样本分布特征
下载PDF
从熵均值决策到样本分布决策 被引量:12
4
作者 何劲松 郑浩然 王煦法 《软件学报》 EI CSCD 北大核心 2003年第3期479-483,共5页
为了研究归纳学习的判决精度问题,分析了C4.5算法的不足以及标准算法与亚算法之间争论和妥协的根本原因,从估计训练样本的概率分布的角度出发,给出了一种简单而新颖的决策树算法.基于UCI数据的实验结果表明,与C4.5算法相比,该方法不仅... 为了研究归纳学习的判决精度问题,分析了C4.5算法的不足以及标准算法与亚算法之间争论和妥协的根本原因,从估计训练样本的概率分布的角度出发,给出了一种简单而新颖的决策树算法.基于UCI数据的实验结果表明,与C4.5算法相比,该方法不仅具有比较好的判决精度,而且具有更快的计算速度. 展开更多
关键词 熵均值决策 样本分布决策 机器学习 归纳学习 决策树 模式识别 参数估计
下载PDF
基于样本分布特征的核函数选择方法研究 被引量:10
5
作者 梁礼明 冯新刚 +1 位作者 陈云嫩 李钟侠 《计算机仿真》 CSCD 北大核心 2013年第1期323-328,共6页
核函数选择是支持向量机研究的热点和难点。目前大多数核函数选择方法主要应用验证方法选择,很少考虑数据的分布特征,没有充分利用隐含在数据中的信息。为此提出了一种应用样本分布特征的核函数选择方法,即先行分析样本分布特征,然后结... 核函数选择是支持向量机研究的热点和难点。目前大多数核函数选择方法主要应用验证方法选择,很少考虑数据的分布特征,没有充分利用隐含在数据中的信息。为此提出了一种应用样本分布特征的核函数选择方法,即先行分析样本分布特征,然后结合核函数蕴含的几何度量选择合适的核函数,使非线性样本映射得到的特征空间线性可分性得到提高,增强可分性和预测能力。仿真结果证明,提出的方法对支持向量机核函数选择能提供有效的指导,且对泛化能力也得到提高,方案具有可行性和有效性。 展开更多
关键词 支持向量机 样本分布特征 核函数
下载PDF
基于样本分布与熵的数值型属性离散化 被引量:2
6
作者 林永民 吕震宇 +1 位作者 赵爽 朱卫东 《计算机工程与应用》 CSCD 北大核心 2008年第1期159-161,共3页
连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度... 连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。 展开更多
关键词 数值型属性 样本分布 离散化
下载PDF
基于增益的数据样本分布描述方法 被引量:2
7
作者 孙微微 刘才兴 田绪红 《计算机应用》 CSCD 北大核心 2005年第5期1004-1005,1011,共3页
针对高维离散型分类数据的样本分布描述问题,提出基于增益的得分比方法,策略是根据属性和属性值的重要程度,为每个样本计算得分比,从样本对分类的隶属度角度描述各分类中样本的分布。得分比的概率密度曲线和直方图可以直观反映出在每一... 针对高维离散型分类数据的样本分布描述问题,提出基于增益的得分比方法,策略是根据属性和属性值的重要程度,为每个样本计算得分比,从样本对分类的隶属度角度描述各分类中样本的分布。得分比的概率密度曲线和直方图可以直观反映出在每一分类中典型样本和噪声样本的分布情况。 展开更多
关键词 增益 隶属度 样本分布
下载PDF
在用摩托车样本分布和活动水平分析 被引量:2
8
作者 冷传刚 秦敬哲 赵颖 《小型内燃机与车辆技术》 2020年第5期20-23,共4页
以全国在用摩托车样本分布、活动水平为研究对象,以问卷调查的方式实施调研,对调研结果统计整理,得到在用摩托车的样本分布和活动水平不同层面的统计数据,如实反映摩托车的实际情况。方差分析结果表明,使用分层随机抽样,可以避免简单随... 以全国在用摩托车样本分布、活动水平为研究对象,以问卷调查的方式实施调研,对调研结果统计整理,得到在用摩托车的样本分布和活动水平不同层面的统计数据,如实反映摩托车的实际情况。方差分析结果表明,使用分层随机抽样,可以避免简单随机抽样过于集中于某个地区或某种特性的缺点,使样本能够覆盖整个调研对象。 展开更多
关键词 在用摩托车 样本分布 活动水平
下载PDF
优化样本分布的最接近支持向量机 被引量:2
9
作者 杨勃 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2429-2434,共6页
当两类样本分布存在差异时,最接近支持向量机(Proximal Support Vector Machine,PSVM)等最小二乘类分类器分类结果将出现偏差,不能实现最小错误率分类.本文在分析PSVM等价广义特征值分解模型基础上,提出了一种改善原PSVM分类决策面的优... 当两类样本分布存在差异时,最接近支持向量机(Proximal Support Vector Machine,PSVM)等最小二乘类分类器分类结果将出现偏差,不能实现最小错误率分类.本文在分析PSVM等价广义特征值分解模型基础上,提出了一种改善原PSVM分类决策面的优化样本分布PSVM,其基本思想是通过引入最大化正确分类样本距决策面距离,同时最小化错误分类样本距决策面距离的优化样本分布正则化项,构造优化样本分布PSVM的广义特征值分解模型.通过人工数据集和UCI数据集的10个数据子集上的对比实验,验证了该改进分类模型能够有效调整决策边界,从而获得更好的分类效果. 展开更多
关键词 最接近支持向量机 优化样本分布 正则化技术
下载PDF
ARCH、GARCH模型参数估计样本分布的Monte Carlo研究 被引量:2
10
作者 吴国富 孙传忠 吕有 《数理统计与应用概率》 1998年第3期101-105,109,共6页
本文使用MonteCarlo方法对常用的ARGARCH一类模型的样本分布性质进行了讨论.重点讨论了在小样本条件下AR(1)GARCH(1,1)模型与通常模型参数估计分布性质及预测精度;使用序贯数论优划(SNTO)... 本文使用MonteCarlo方法对常用的ARGARCH一类模型的样本分布性质进行了讨论.重点讨论了在小样本条件下AR(1)GARCH(1,1)模型与通常模型参数估计分布性质及预测精度;使用序贯数论优划(SNTO)算法与使用BHHH算法对AR(1)GARCH(1,1)模型估计结果的优劣比较;K-S统计量检验方法与常用的LM统计量有效性的比较. 展开更多
关键词 模型参数估计 样本分布 分布性质 GARCH 检验统计量 MONTE 正态分布 样本性质 估计值 样本
下载PDF
基于样本分布信息的自适应Hough变换方法
11
作者 孙建 王鹏 陈宗海 《中国科学技术大学学报》 CAS CSCD 北大核心 2015年第1期48-55,共8页
参数空间的量化单位影响霍夫变换(Hough transform,HT)提取直线特征的精度,为此提出一种霍夫变换中参数空间量化单位自适应调整的方法——自适应霍夫变换(Adaptive HT,AHT)方法.首先,根据采样数据建立样本统计模型,并确定该模型的参数;... 参数空间的量化单位影响霍夫变换(Hough transform,HT)提取直线特征的精度,为此提出一种霍夫变换中参数空间量化单位自适应调整的方法——自适应霍夫变换(Adaptive HT,AHT)方法.首先,根据采样数据建立样本统计模型,并确定该模型的参数;然后,根据模型参数随量化单位的变化趋势以及样本信息的分布特征,给出量化单位的自适应调整策略,从而获取优化的量化单位;最后,将优化的量化单位应用于霍夫变换特征提取.实验结果表明,在结构化环境中,该方法能够实现优化量化单位的目标,从而有效减小了直线特征检测误差,提高了检测精度. 展开更多
关键词 霍夫变换 量化单位 移动机器人 特征提取 样本分布信息 自适应调整
下载PDF
简介水泥实验室常用样本分布特征值的Excel计算
12
作者 孙庆利 《四川水泥》 2010年第3期45-48,共4页
以水泥实验室常用样本分布特征值为例,运用Excel进行数据分析的辅助计算,显示了Excel运算迅速、准确的优点。
关键词 样本分布特征值 Excel函数计算
下载PDF
基于森林资源清查资料的四川立木生物量建模类型划分及样本分布研究 被引量:1
13
作者 赖长鸿 张文 +4 位作者 刘波 王丽丽 邱帅 赵庆霞 金彦强 《四川林业科技》 2018年第3期93-97,共5页
基于四川省连续5次(1988a、1992a、1997a、2002a、2007a)森林资源清查资料,统计分析不同森林类型面积、蓄积近20年来变化情况,参考四川森林分布现状(树种、林龄、起源等情况)、林业经营管理和重大林业工程实施情况,并根据四川森林资源... 基于四川省连续5次(1988a、1992a、1997a、2002a、2007a)森林资源清查资料,统计分析不同森林类型面积、蓄积近20年来变化情况,参考四川森林分布现状(树种、林龄、起源等情况)、林业经营管理和重大林业工程实施情况,并根据四川森林资源连续清查获取的调查样地、检尺样木信息,综合分析四川立木生物量建模类型,将四川地区立木生物量建模类型分为16个树种(组);在此基础上,根据清查样地的样木信息确定立木生物量调查样本的胸径、海拔、经度、纬度的分布范围,以期为四川立木生物量模型的系统研建提供科学参考依据。 展开更多
关键词 四川森林资源清查资料 立木生物量 建模类型 样本分布
下载PDF
基于样本分布加权跨域极限学习机的电子鼻漂移补偿 被引量:1
14
作者 闫嘉 陈飞越 +1 位作者 易若男 王子健 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第12期105-113,共9页
针对电子鼻应用中传感器漂移现象导致的电子鼻分类准确率降低问题,文中提出一种基于样本分布加权的跨域极限学习机模型。该模型考虑到单个样本对全局分布差异度量的贡献度不同,以基于样本分布加权的最大均值差异作为衡量领域间样本分布... 针对电子鼻应用中传感器漂移现象导致的电子鼻分类准确率降低问题,文中提出一种基于样本分布加权的跨域极限学习机模型。该模型考虑到单个样本对全局分布差异度量的贡献度不同,以基于样本分布加权的最大均值差异作为衡量领域间样本分布差异的度量,将源域和目标域数据投影到高维的极限学习机特征空间中,然后寻找一个合适的投影方向,将特征空间中的数据映射到一个公共子空间中,使得子空间中源域数据和目标域数据具有相似的分布。使用Matlab对该算法进行仿真,并对比不同的隐含层节点数对该算法识别率的影响,以验证该算法的可行性。结果表明,文中提出的算法模型可以明显减小两个域间数据的分布差异,满足传统的分类学习算法对训练和测试数据的分布要求,从而提高电子鼻的分类准确率。 展开更多
关键词 极限学习机 子空间学习 样本分布加权 漂移补偿 电子鼻
下载PDF
样本分布公式在设计洪水中的应用
15
作者 赵佩兰 《水利科技》 1989年第4期85-87,共3页
本文应用正态分配的抽样分布特性,提出设计洪水的简化计算途径。据此,对实测洪水系列进行计算,结果表明,与适线法的成果是相近的。具有一定的精度。
关键词 设计洪水 样本分布 适线法 实测洪水 抽样分布 洪峰流量 正态化 简化计算 检验临界值 洪水总量
下载PDF
人民银行储户调查样本分布评估及偏态改善研究 被引量:1
16
作者 韦志华 郭海 +1 位作者 矫强力 李巧巧 《金融发展评论》 2016年第8期125-133,共9页
人民银行于1993年正式建立了城乡居民储蓄问卷调查制度,通过了解城镇居民储蓄、消费、投资及通货膨胀预期等信息,为货币政策与宏观调控提供决策依据。但近年随着我国自动存取款设备、电话银行、网上银行的日益普及,进入银行网点的储户... 人民银行于1993年正式建立了城乡居民储蓄问卷调查制度,通过了解城镇居民储蓄、消费、投资及通货膨胀预期等信息,为货币政策与宏观调控提供决策依据。但近年随着我国自动存取款设备、电话银行、网上银行的日益普及,进入银行网点的储户存在年龄结构偏大、文化水平偏低等特点,样本分布呈现偏态,影响调查效果。为提高储户调查结果的有效性,本文从抽样调查的角度,以库尔勒市为例,选取样本单位的年龄、家庭月收入以及受教育程度,对库尔勒储户调查样本分布情况进行评估,提出偏态改善建议。 展开更多
关键词 储户调查 样本分布评估 偏态
原文传递
人民银行经济调查样本分布评估与偏态改善——以城镇储户问卷调查为例 被引量:2
17
作者 中国人民银行呼和浩特中心支行课题组 余文建 《金融发展评论》 2015年第10期122-130,共9页
人民银行组织实施的常规性经济调查是了解经济运行的重要手段,经济调查工作开展是否科学、客观,能否全面反映微观主体的活动情况,会直接影响到人民银行对经济形势的研判,甚至影响货币政策的制定,因此对经济调查工作进行评估是非常必要... 人民银行组织实施的常规性经济调查是了解经济运行的重要手段,经济调查工作开展是否科学、客观,能否全面反映微观主体的活动情况,会直接影响到人民银行对经济形势的研判,甚至影响货币政策的制定,因此对经济调查工作进行评估是非常必要的。目前,对于调查样本代表性的评估主要集中在事前保证上,缺少对已获得样本、已进行调查的可靠性评估与总体偏差性研究。本文尝试从样本—总体分布和内部属性的两个方面建立样本代表性事后评估系统,构建一套指标体系与假设检验方法,通过对呼和浩特城镇储户调查进行样本代表性评估的尝试,为下一步完善调查样本评估工作提供参考。 展开更多
关键词 经济调查 人民银行 总体偏差 假设检验方法 储户问卷调查 银行组织 可靠性评估 差异率 指标体系 样本分布
原文传递
城镇储户问卷调查样本分布评估
18
《金融发展评论》 2015年第10期121-121,共1页
目前中国人民银行城镇储户问卷调查主要依托银行储蓄网点进行,而随着互联网技术的发展与普及,去储蓄网点办理业务人群结构发生了变化,可能会导致现行储蓄网点调查样本出现覆盖面不广、代表性不强等问题。本文编辑了两篇关于城镇储户问... 目前中国人民银行城镇储户问卷调查主要依托银行储蓄网点进行,而随着互联网技术的发展与普及,去储蓄网点办理业务人群结构发生了变化,可能会导致现行储蓄网点调查样本出现覆盖面不广、代表性不强等问题。本文编辑了两篇关于城镇储户问卷调查样本分布评估的研究报告,对解决这一问题进行了深入的探索。两篇报告的研究角度不同。前者注重理论方法的探讨,尝试构建了基于样本—总体分布和内部属性两个方面的事后评估系统,并运用这一系统对城镇储户调查样本代表性进行了评估尝试。后者主要从实践角度,结合江苏四个地区城镇储户问卷网络调查的试点工作,就如何借助网络调查渠道修正和改善储蓄网点调查样本的代表性进行了分析和评估。这两篇报告的研究结果显示,现有的通过银行储蓄网点进行调查的样本与实际城镇居民的分布存在一定偏差,但基本上还是匹配的。借助网络平台调查对储蓄网点调查样本进行修正和改善是可行的,通过替换一定比例的网络平台调查样本,储蓄网点调查样本的年龄分布、学历层次、收入水平以及对热点问题的判断均得到进一步优化。 展开更多
关键词 储户问卷调查 样本分布 银行储蓄 网络调查 内部属性 人民银行 总体分布 实践角度 理论方法 人群结构
原文传递
江苏四市城镇储户问卷调查样本分布评估——兼论网络平台调查对现行储蓄网点调查样本的修正
19
作者 中国人民银行南京分行课题组 曹小艳 《金融发展评论》 2015年第10期131-144,共14页
一、引言1993年9月,中国人民银行建立城镇储户问卷调查制度,为了适应形势变化,该项调查又进行多次修改和完善。目前,城镇储户问卷调查主要依托银行储蓄网点进行,即在选定的储蓄网点按随机原则从办理银行业务的储户中抽选既定数量构成调... 一、引言1993年9月,中国人民银行建立城镇储户问卷调查制度,为了适应形势变化,该项调查又进行多次修改和完善。目前,城镇储户问卷调查主要依托银行储蓄网点进行,即在选定的储蓄网点按随机原则从办理银行业务的储户中抽选既定数量构成调查样本,以此代表当地城镇居民总体状况。而伴随着网络技术的发展与普及,城镇居民特别是年轻的城镇居民办理银行业务趋向网络化,去储蓄网点办理业务的情况明显减少。储蓄网点办理业务人群结构的这一变化将对依托储蓄网点进行的城镇储户问卷调查样本的覆盖面和代表性产生一定影响, 展开更多
关键词 储户问卷调查 样本分布 银行业务 网络平台 网络调查 兼论 随机原则 人群结构 网络技术 收入分布
原文传递
用样本分布估计总体分布
20
作者 陈忠 《高中生学习(试题研究)》 2017年第10期33-35,共3页
用样本分布估计总体分布是从样本分布状况的角度分析总体的规律,涉及的内容有图表和数字特征.其中图表包括频率分布表及直方图、折线图、散点图、茎叶图.数字特征包括平均数、中位数、众数、方差、标准差等.考纲对这部分内容的要求是识... 用样本分布估计总体分布是从样本分布状况的角度分析总体的规律,涉及的内容有图表和数字特征.其中图表包括频率分布表及直方图、折线图、散点图、茎叶图.数字特征包括平均数、中位数、众数、方差、标准差等.考纲对这部分内容的要求是识图、读图和估计.本文将通过几个实例分析这类题型的解法. 展开更多
关键词 频率分布直方图 样本分布 频率分布 总体分布 数字特征 众数 算术平方根 散点图 回归直线方程 满意度评分
原文传递
上一页 1 2 6 下一页 到第
使用帮助 返回顶部