期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于海林格距离和SMOTE的多类不平衡学习算法 被引量:10
1
作者 董明刚 姜振龙 敬超 《计算机科学》 CSCD 北大核心 2020年第1期102-109,共8页
数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分... 数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化。鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE)。首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向。其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险。最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价。实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%。HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果。 展开更多
关键词 SMOTE 上采样 海林格距离 多类不平衡学习 分类
下载PDF
基于海林格距离和相关系数的中低速悬浮系统异常检测方法 被引量:3
2
作者 罗建辉 王平 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2022年第10期3096-3106,共11页
悬浮系统的异常指在中低速磁浮列车的实际运行中,悬浮系统工作状态与期望状态不匹配,且系统没有发生故障。准确预测悬浮系统的异常有助于合理地分配有限的监控资源,提前安排预防性维护计划,减少计划外维修成本,降低事故率。虽然根据《... 悬浮系统的异常指在中低速磁浮列车的实际运行中,悬浮系统工作状态与期望状态不匹配,且系统没有发生故障。准确预测悬浮系统的异常有助于合理地分配有限的监控资源,提前安排预防性维护计划,减少计划外维修成本,降低事故率。虽然根据《中低速磁浮交通车辆悬浮控制系统技术条件CJ/T 458—2014》可获得基于悬浮间隙的经验阈值,但在工程应用中,由于悬浮系统受到额定悬浮间隙不唯一和外界扰动的影响,该方法的检测结果常会产生漏报问题。因此,考虑到悬浮系统发生异常时,悬浮系统的电流、加速度和间隙会发生一定的变化且相互之间的相关性也会发生变化,利用悬浮系统的电流、加速度和间隙等多维监测数据,提出一种基于海林格距离和相关系数的中低速悬浮系统异常检测方法。考虑到系统发生异常时,系统的部分数据间的相关性会发生一定的变化,可通过相关系数来检测数据之间的相关性变化。考虑到系统发生异常时,部分数据会发生一定的变化,可通过海林格距离来检测数据的变化。将相关系数和海林格距离的结果融合用于实现悬浮系统的异常检测。运营线数据验证了该方法受到额定悬浮间隙不唯一和外界扰动的影响较小,且与其他的方法相比,该方法能获得更高的检测率和更低的误报率。 展开更多
关键词 悬浮系统 异常检测 海林格距离 相关系数
下载PDF
基于海林格距离和AHDPSO-ELM的岩爆烈度等级预测模型 被引量:2
3
作者 温廷新 陈依琳 《中国安全科学学报》 CAS CSCD 北大核心 2022年第11期38-46,共9页
为提高岩爆烈度等级预测准确率,提出一种基于海林格距离过采样(HDO)和自适应混合差分粒子群优化算法(AHDPSO)-极限学习机(ELM)的预测模型。首先,在分析影响岩爆烈度因素基础上选取主要影响指标,采用HDO算法增加少数类样本数目,均衡各等... 为提高岩爆烈度等级预测准确率,提出一种基于海林格距离过采样(HDO)和自适应混合差分粒子群优化算法(AHDPSO)-极限学习机(ELM)的预测模型。首先,在分析影响岩爆烈度因素基础上选取主要影响指标,采用HDO算法增加少数类样本数目,均衡各等级岩爆样本;然后,基于粒子群优化(PSO)算法,引入自适应种群间距和差分进化(DE)算法中变异算子设计AHDPSO,利用AHDPSO优选ELM的输入层权值和隐藏层阈值,构建岩爆烈度等级预测模型;最后,采用国内外301组岩爆样本对模型训练、测试并与其他模型对比。研究表明:经HDO算法均衡岩爆数据集后,整体的预测准确率提高11.91%,且各等级的平均预测准确率均得到提高;基于HDO的AHDPSO-ELM岩爆烈度等级预测模型平均预测准确率为98.92%,均方误差为0.0108,预测精度优于其他对比模型。 展开更多
关键词 海林格距离过采样(HDO) 自适应混合差分粒子群优化(AHDPSO) 岩爆烈度等级预测 极限学习机(ELM) 岩爆样本 变异算子 自适应种群间距
下载PDF
基于海林格距离加权关键主元的流程工业故障检测研究
4
作者 赵成 苏圣超 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第3期91-101,共11页
在采用主成分分析(principal component analysis,PCA)算法进行故障检测时,主元的选取及处理直接影响其故障检测的表现。对此,提出一种基于全变量表达(full variable expression,FVE)和海林格距离(Hellinger distance,HD)的故障检测方... 在采用主成分分析(principal component analysis,PCA)算法进行故障检测时,主元的选取及处理直接影响其故障检测的表现。对此,提出一种基于全变量表达(full variable expression,FVE)和海林格距离(Hellinger distance,HD)的故障检测方法。首先,利用FVE得到所有关键主元,即保留所有变量信息;然后考虑到与故障相关主元的重要性,定义基于海林格距离的变化率,用来衡量正常工况下主元与异常工况下主元的差异;对与故障发生更相关的主元进行加权,以突出与故障相关主元对于后续故障检测的影响;最后,考虑到降维后数据通常服从非高斯分布,利用改进的局部离群因子(local outlier factor,LOF)构建统计量,其相应控制限通过核密度估计(kernel density estimation,KDE)确定。数值实例及带钢热连轧实际生产数据验证了所提方法的有效性与优越性。 展开更多
关键词 故障检测 主元分析法 关键主元 海林格距离 局部离群因子
下载PDF
基于敏感信息度量的t-保密脱敏技术改良 被引量:7
5
作者 吴克河 朱海 +3 位作者 李为 崔文超 张晓亮 程瑞 《信息技术》 2019年第11期5-9,共5页
随着大数据的运用不断发展,数据中的个人敏感信息面对的泄露风险越来越大。在发布数据时,可以通过数据脱敏来保护个人敏感信息。当前主流的脱敏技术有k-匿名、l-多样性和t-保密三种,都没有对数据语义的考虑。为了更好地保护复杂语义下... 随着大数据的运用不断发展,数据中的个人敏感信息面对的泄露风险越来越大。在发布数据时,可以通过数据脱敏来保护个人敏感信息。当前主流的脱敏技术有k-匿名、l-多样性和t-保密三种,都没有对数据语义的考虑。为了更好地保护复杂语义下高敏感度的敏感属性值,文中选用t-保密脱敏技术,以海林格距离作为度量方式,通过敏感属性值分类加权引入铭感信息度量。数据分析及实验结果表明,该方法在可接受的脱敏时间开销增长下,加强了对复杂语义的敏感数据的保护能力。同时分类加权方式方便灵活,可以满足实际使用中的不同需求。 展开更多
关键词 数据脱敏 t-保密脱敏技术 海林格距离 隐私保护
下载PDF
基于邮件特征匹配的Botnet检测方法 被引量:2
6
作者 范轶彦 邬国锐 《计算机工程与设计》 CSCD 北大核心 2010年第1期45-47,共3页
为降低特征提取的复杂度,提高分类速度,提出了一种基于邮件特征匹配的僵尸网络检测方法。不依赖于邮件具体内容和网络流量分析,通过对原始邮件进行概化,进而得到邮件特征值,然后利用海林格距离在僵尸网络邮件特征库中找到最匹配的值,从... 为降低特征提取的复杂度,提高分类速度,提出了一种基于邮件特征匹配的僵尸网络检测方法。不依赖于邮件具体内容和网络流量分析,通过对原始邮件进行概化,进而得到邮件特征值,然后利用海林格距离在僵尸网络邮件特征库中找到最匹配的值,从而检测发送垃圾邮件的僵尸网络类型。实验结果表明,该方法在预构建特征库的情况下对大量邮件进行分析,具有较高的效率和正确率。 展开更多
关键词 僵尸网络 垃圾邮件 邮件内容 特征分析 海林格距离
下载PDF
在不平衡数据中进行高效通信的联邦学习 被引量:1
7
作者 舒志鸿 沈苏彬 《计算机技术与发展》 2021年第12期33-38,共6页
联邦学习(FL)是一种分布式的机器学习方法,它通过中心服务器汇总各个移动终端在本地训练的机器学习模型,使得多个参与方能够协作进行高效率的机器学习。同时,FL不需要将终端的私人数据发送至中心服务器,从而保护了数据隐私。但是与普通... 联邦学习(FL)是一种分布式的机器学习方法,它通过中心服务器汇总各个移动终端在本地训练的机器学习模型,使得多个参与方能够协作进行高效率的机器学习。同时,FL不需要将终端的私人数据发送至中心服务器,从而保护了数据隐私。但是与普通的训练数据集不同,终端系统中的数据分布不平衡,这将导致FL的通信效率下降。针对该问题,提出了一种基于数据分布加权聚合的FL算法。通过计算参与方的本地数据集与平衡数据集之间的海林格距离对本地数据集的平衡程度进行了量化,并据此调整了参与方在聚合时的权重,以减少算法收敛或达到目标准确率所需的通信回合。提出的算法利用公开数据集进行了仿真实验。实验结果表明,其与最新的算法联邦平均相比,通信成本降低了14.6%以上,有效提升了数据不平衡时FL的通信效率。 展开更多
关键词 联邦学习 机器学习 不平衡数据 海林格距离 聚合
下载PDF
基于逆协方差交叉的分布式航迹融合算法 被引量:1
8
作者 杜度 李磊 袁思鸣 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2022年第10期1440-1446,1490,共8页
针对航迹融合中数据相关性未知的情况,本文首先研究了航迹融合预处理手段,实现了局部航迹向全局航迹的坐标转换与航迹间的时间对准。然后研究了基于逆协方差交叉的分布式航迹融合算法,并利用结合位置均方根误差、状态协方差矩阵及海林... 针对航迹融合中数据相关性未知的情况,本文首先研究了航迹融合预处理手段,实现了局部航迹向全局航迹的坐标转换与航迹间的时间对准。然后研究了基于逆协方差交叉的分布式航迹融合算法,并利用结合位置均方根误差、状态协方差矩阵及海林格距离等指标的航迹融合评价指标对算法性能进行全面公允的分析,避免了单一指标的局限性。通过理论分析以及计算机仿真,与协方差交叉算法进行对比验证了该算法的有效性,同时验证了本文航迹融合评价指标的合理性。 展开更多
关键词 分布式航迹 数据融合 椭球法 数据相关性 逆协方差交叉 海林格距离 均方根误差 航迹融合评价指标
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部