期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于高斯混合聚类采样的不平衡数据处理方法 被引量:1
1
作者 严涛 江开忠 +1 位作者 姜新盈 王舒梵 《计算机应用与软件》 北大核心 2023年第12期305-311,共7页
在处理不平衡数据时,为有效剔除多数样本内的冗余信息和合成有价值的少数样本,提出一种基于高斯混合模型的采样算法(MSGMM)。将多数类和少数类样本分别聚类,最佳聚类个数通过迭代确定。在迭代时,先初步选择聚类个数并用高斯混合模型聚... 在处理不平衡数据时,为有效剔除多数样本内的冗余信息和合成有价值的少数样本,提出一种基于高斯混合模型的采样算法(MSGMM)。将多数类和少数类样本分别聚类,最佳聚类个数通过迭代确定。在迭代时,先初步选择聚类个数并用高斯混合模型聚类。对于多数样本的每一个聚类C的剔除比例为其聚类中心到SVM生成超平面的距离权重和其数量权重的加权;对少数类样本按聚类中心到超平面的距离来划分采样比例;并用Random-SMOTE算法合成新样本,以此达到样本数量之间的平衡。实验表明该算法相较于传统算法,精度有1%~16%的提升,验证了该算法的有效性。 展开更多
关键词 不平衡数据集 分类 高斯混合模型 混合采样
下载PDF
谱聚类欠取样下自编码网络不平衡数据挖掘 被引量:1
2
作者 王舒梵 严涛 姜新盈 《计算机系统应用》 2021年第10期331-335,共5页
不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选... 不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选择地欠取样处理多数类数据集,获取分类边界偏移量,利用学习过程是无监督学习的自编码网络,升、降维数据,获取各维度隐藏特征,实现各层面的数据高效表示学习,根据最大均值差异与预设阈值的对比结果,调整自编码网络,基于得到的分类界面,完成不平衡数据挖掘.选用具有不同实际应用背景的UCI数据集,从中抽取10组数据作为测试集,经谱聚类欠取样处理与模拟实验,发现所提方法大幅提升少数类分类精度与整体挖掘性能,具有较好的适用性与可行性. 展开更多
关键词 谱聚类 欠取样 自编码网络 不平衡数据 分类边界 聚类中心
下载PDF
互联网背景下广州市6所高校大学生性观念和性行为现状调查 被引量:16
3
作者 黄梅香 肖瑶 王舒梵 《中国性科学》 2020年第10期157-160,共4页
目的研究互联网背景下广州市大学生性观念和性行为的现状,为高校开展性健康教育、实行性行为预防和干预措施提供相应的科学依据。方法采用随机抽样法,选取广州市6所高等院校1550名本专科学生进行无记名问卷调查。结果77.8%的大学生性知... 目的研究互联网背景下广州市大学生性观念和性行为的现状,为高校开展性健康教育、实行性行为预防和干预措施提供相应的科学依据。方法采用随机抽样法,选取广州市6所高等院校1550名本专科学生进行无记名问卷调查。结果77.8%的大学生性知识来源于网络;男女性观念相对开放,差异具有统计学意义(P<0.05);性行为发生率为14.5%,意外妊娠的报告率为发生过性行为者的10.1%。结论大学生性观念相对开放,但性安全保护意识较弱,高校或可利用互联网进行性教育,从而使互联网在性教育中发挥积极作用。 展开更多
关键词 互联网 性观念 性行为 性教育
下载PDF
基于XGBoost-LR模型的企业财务危机预测与研究
4
作者 王舒梵 姜新盈 严涛 《软件》 2022年第4期13-17,共5页
上市公司年报中的统计性数据是上市公司发展情况的重要体现,通过对上市公司经营情况数据的挖掘与分析可以提高对其财务风险的预测能力。本文从上市公司的财务数据中选取了36个财务指标,并把指标划分成五个维度进行分析(依次是偿债能力... 上市公司年报中的统计性数据是上市公司发展情况的重要体现,通过对上市公司经营情况数据的挖掘与分析可以提高对其财务风险的预测能力。本文从上市公司的财务数据中选取了36个财务指标,并把指标划分成五个维度进行分析(依次是偿债能力、盈利能力、营运能力、发展能力和现金流能力)[1],分别使用Logistic回归算法、决策树算法、支持向量机算法、极限梯度提升决策树(XGBoost)等算法建立了企业经典财务预警模型,并提出了一种基于XGBoost-LR算法的融合模型来进行财务危机预警,该模型首先运用用XGBoost算法自动进行了特征组合和离散化,然后将新构造出的特征向量运用在LR模型上,通过LR模型来进行分类预测。通过模型对比表明,该算法在预测企业财务危机上具有较高的准确率,可为企业日常生产经营活动提供一定的指导意义。 展开更多
关键词 财务危机 财务危机预警模型 不平衡数据 XGBoost-LR融合模型
下载PDF
不平衡数据中基于权重的边界混合采样 被引量:3
5
作者 姜新盈 江开忠 +1 位作者 严涛 王舒梵 《计算机工程与设计》 北大核心 2022年第5期1265-1272,共8页
针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界... 针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界因子概念,把原样本空间分成边界集和非边界集;考虑类内样本分布,对于边界集中每个少数类样本赋予支持度权重和密度权重并增加采样比重将其划分为两类,对两类样本子集采用不同的过采样算法和过采样倍率;考虑不同区域样本重要性的不同,根据多数类样本距离其最近的k个异类近邻的平均距离来删减部分非边界集多数类样本点。实验结果表明,结合SVM分类器的BWBMS算法在不同数据集上的性能指标得到了提升,验证了其有效性。 展开更多
关键词 不平衡数据 分类 权重 边界因子 混合采样
下载PDF
优化K-means的不平衡数据分类研究
6
作者 王舒梵 《电子技术与软件工程》 2020年第16期197-199,共3页
本文设计了一种基于优化K-means的不平衡数据分类算法,旨在避免不平衡数据集分类问题的同时,减少传统K-means算法中聚类中心难以控制以及分类结果严重依赖聚类中心等问题。首先,完成K-means的优化算法,之后将K-means反复迭代到不平衡数... 本文设计了一种基于优化K-means的不平衡数据分类算法,旨在避免不平衡数据集分类问题的同时,减少传统K-means算法中聚类中心难以控制以及分类结果严重依赖聚类中心等问题。首先,完成K-means的优化算法,之后将K-means反复迭代到不平衡数据分类算法中,最终得到不平衡数据集合的分类结果。通过性能分析,确定本文算法比传统的K-means具有更好地聚类准确性,并且消耗更少的时间。 展开更多
关键词 K-MEANS 不平衡数据 分类
下载PDF
基于层次密度聚类的去噪自适应混合采样
7
作者 姜新盈 王舒梵 严涛 《计算机系统应用》 2022年第10期206-210,共5页
针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCA... 针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCAN聚类算法,将少数类和多数类分别聚类,将全局离群点和局部离群点的交集视为噪声集,在剔除噪声样本之后对原数据集进行处理,其次,根据少数类样本中每簇的平均距离,采用覆盖面更广的采样方法自适应合成新样本,最后删除一部分多数类样本集中的对分类贡献小的点,使数据集均衡.ADHSBHD算法在7个真实数据集上进行评估,结果证明了其有效性. 展开更多
关键词 不平衡数据 分类 聚类 混合采样
下载PDF
基于Lasso降维的不平衡数据处理方法在股票中的应用
8
作者 严涛 王舒梵 姜新盈 《经济研究导刊》 2023年第17期70-73,共4页
为了在高维财务股票数据中选出重要的特征以及如何选出优质股票是每个投资者所面临的问题。为了减少特征选择过程中人为因素的干扰,提出一种基于Lasso降维的股票分类方法(LR-SC)。首先将高维的财务股票数据放入Lasso进行特征选择,对于... 为了在高维财务股票数据中选出重要的特征以及如何选出优质股票是每个投资者所面临的问题。为了减少特征选择过程中人为因素的干扰,提出一种基于Lasso降维的股票分类方法(LR-SC)。首先将高维的财务股票数据放入Lasso进行特征选择,对于降维后的数据,选择每股收益前10%的为少数样本,之后计算每个少数类样本到svm生成的超平面的距离,通过Random-SMOTE算法来生成新的少数类样本,并选择距离超平面最远的后50%的多数类样本来剔除,以此来达到样本之间的平衡。实验结果表明,其选出优质股的精度有所提高,证明了该算法在股票选股上的可行性和有效性。 展开更多
关键词 股票选股 不平衡数据 lasso降维 Random-SMOTE
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部