期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
社交平台不平衡文本数据处理与应用研究
1
作者 姜钰棋 侯智文 +2 位作者 王一帆 翟晗名 卜凡亮 《计算机科学与探索》 CSCD 北大核心 2024年第9期2370-2383,共14页
随着社会信息化程度加深,运用自然语言处理技术从海量网络数据中筛选提取有效信息,具有重要的实用价值。然而,从社交平台收集的文本数据存在有效信息类别数据量少、类别不平衡等问题。因此,提出SimDyFeFL方法解决中文应急关联文本识别... 随着社会信息化程度加深,运用自然语言处理技术从海量网络数据中筛选提取有效信息,具有重要的实用价值。然而,从社交平台收集的文本数据存在有效信息类别数据量少、类别不平衡等问题。因此,提出SimDyFeFL方法解决中文应急关联文本识别任务的数据不均衡问题,EdaDyFeFL方法解决英文网络暴力检测任务的数据不均衡问题。采用SimBERT与EDA方法将类间差异较大的原始数据增强至类间数量相近后,融合加入动态反馈过程的Focal Loss函数对各类别加权,并设计BERT、RoBERTa与BERT_DPCNN作为文本分类模型进行三个阶段的对比实验,证明提出方法的有效性。在中、英文两个真实数据集上的大量实验表明,使用SimDyFeFL与EdaDyFeFL改进后的文本分类模型综合性能提升显著,中文模型准确率最高提升7.70个百分点,英文模型准确率最高提升5.15个百分点。与Kaggle平台已有研究取得的最好成绩相比,英文模型准确率高出了2.92个百分点,Macro F1值与Weighted F1值分别高出2.83个百分点与2.95个百分点。 展开更多
关键词 社交平台文本分类 平衡数据处理 SimBERT EDA Focal Loss
下载PDF
基于ADASYN平衡化数据集的POA-SVM变压器故障诊断 被引量:5
2
作者 刘迪迪 王洋 +2 位作者 刘辉乾 李华强 朱庆东 《电网与清洁能源》 CSCD 北大核心 2023年第8期36-44,共9页
基于机器学习的变压器故障诊断在特定样本数据下实现了高精度的故障诊断及分类,然而对于非均衡数据集容易导致一致性降低。提出了ADASYN-POA-SVM变压器故障诊断模型,该模型能够在保留少类样本数据特征的情况下对原始少类数据进行样本合... 基于机器学习的变压器故障诊断在特定样本数据下实现了高精度的故障诊断及分类,然而对于非均衡数据集容易导致一致性降低。提出了ADASYN-POA-SVM变压器故障诊断模型,该模型能够在保留少类样本数据特征的情况下对原始少类数据进行样本合成,使训练集中各类样本数达到均衡;鹈鹕优化(pelican optimization algorithm,POA)支持向量机(support vector machine,SVM)在实现SVM参数自动寻优的同时,还能提高整体的诊断准确度。将所提模型与反向传播(back propagation,BP)神经网络、随机森林(random forests,RF)以及SVM算法进行对比仿真实验,结果表明:经过ADASYN过采样方法处理后可以实现样本的均衡化;所提模型在迭代次数为10次时趋于收敛,相比于其他模型而言一致性最高,为99.32%,验证了所提模型在处理变压器不均衡数据时具有较高的优越性。 展开更多
关键词 变压器 平衡数据处理 变压器故障诊断 POA-SVM
下载PDF
一种面向药物-靶点相互作用预测的不平衡数据处理方法 被引量:1
3
作者 叶志威 张晓龙 林晓丽 《武汉科技大学学报》 CAS 北大核心 2022年第1期68-74,共7页
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用... 为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法。通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测。实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能。 展开更多
关键词 平衡数据处理 药物-靶点相互作用 词向量 特征提取 Borderline-SMOTE 梯度提升决策树
下载PDF
基于TLR-ADASYN平衡化数据集的MSSA-SVM变压器故障诊断 被引量:42
4
作者 余松 胡东 +2 位作者 唐超 张丞鸣 谭为民 《高电压技术》 EI CAS CSCD 北大核心 2021年第11期3845-3853,共9页
变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻... 变压器的稳定运行在电力系统安全中扮演重要角色,而变压器故障数据样本的不足会对故障类型的准确识别产生严重影响。论文首先使用了托梅克链接移除和自适应样本合成的方法对原始数据进行去噪处理及少数类数据样本合成;然后修正了部分麻雀算法(sparrow search algorithm,SSA)公式,并将其与差分进化算法融合,提出了改良麻雀算法(modified sparrow search algorithm,MSSA);接着构建了一种基于平衡数据集的改良麻雀算法优化支持向量机(modified sparrow search algorithm-support vector machine,MSSA-SVM)的变压器故障诊断模型;最后对BP神经网络(BP neural network,BPNN)、粒子群优化支持向量机(particle swarm optimization-support vector machine,PSO-SVM)、麻雀算法优化支持向量机(sparrow search algorithm-support vector machine,SSA-SVM)和MSSA-SVM进行对比仿真实验。结果显示,各类模型在使用平衡数据集后的平均准确率分别提升了3.12%、6.03%、7.58%、10.23%,验证了所提不平衡数据处理方法的有效性;另外,PSO-SVM、SSA-SVM、MSSA-SVM分别迭代了30次、26次和20次后收敛,其在测试集中Kappa系数分别为0.758、0.785和0.870,这表明了MSSA在该模型优化上具有更强的全局搜索能力。仿真结果说明在变压器数据不平衡的实际背景下,所提变压故障诊断方法具有较高的优越性。 展开更多
关键词 电力变压器 故障诊断 平衡类样本数据处理 MSSA-SVM Kappa系数
下载PDF
保护样本分布特征的混合采样方法
5
作者 张浩 仁璐 阎少宏 《华北理工大学学报(自然科学版)》 CAS 2024年第3期122-130,共9页
在大数据窃电检测领域,基于机器学习的异常用电检测方法往往面临数据不平衡问题,影响了模型的泛化性能。为此,提出了一种保护样本分布特征的混合采样算法。首先,根据样本的分布特征提出了密度欠采样和邻域过采样算法。然后,为进一步提... 在大数据窃电检测领域,基于机器学习的异常用电检测方法往往面临数据不平衡问题,影响了模型的泛化性能。为此,提出了一种保护样本分布特征的混合采样算法。首先,根据样本的分布特征提出了密度欠采样和邻域过采样算法。然后,为进一步提高数据处理效果、提升模型性能,给出了失衡度指标来将两种算法结合,并提出了保护样本分布特征的混合采样方法。在两份数据集上进行实验,经过该算法处理的数据集,相较于现有的过采样算法,能够有效减少样本数量,提高模型的训练速度;相较于现有的欠采样算法,能够提高模型准确率和AUC值。 展开更多
关键词 数据平衡处理 数据增强 混合采样算法 异常用电检测
下载PDF
一种混合CGAN与SMOTEENN的不平衡数据处理方法 被引量:5
6
作者 刘宁 朱波 +1 位作者 阴艳超 李岫宸 《控制与决策》 EI CSCD 北大核心 2023年第9期2614-2621,共8页
CGAN能够从数据中学习其分布特性,被引入不平衡数据处理中对少数类样本进行过采样,可以生成符合原始数据分布的新样本,因此比传统的重采样方法具有更好的处理效果.然而,CGAN对数据分布特性的学习易受限于样本规模,在少数类样本规模较小... CGAN能够从数据中学习其分布特性,被引入不平衡数据处理中对少数类样本进行过采样,可以生成符合原始数据分布的新样本,因此比传统的重采样方法具有更好的处理效果.然而,CGAN对数据分布特性的学习易受限于样本规模,在少数类样本规模较小时不能充分学习其分布特性,难以保证生成样本的质量.针对这一问题,提出一种将CGAN与SMOTEENN相结合的不平衡数据平衡化处理方法.首先,从既有的少数类样本出发,采用SMOTEENN方法生成一定规模的少数类样本;然后,在此基础上训练CGAN模型,保证其能够生成符合原始少数类样本分布特征的新样本;最后,再利用CGAN重新生成符合原始少数类样本分布的新样本构建平衡数据集.为验证所提出方法的有效性,基于公开的不平衡数据集开展对比实验研究.实验结果表明,相对几种经典的不平衡数据处理方法与近期文献报道的方法,所提出方法在几项不平衡数据分类评价指标上表现出明显的优势. 展开更多
关键词 平衡数据 数据平衡处理 重采样方法 CGAN SMOTEENN
原文传递
基于Transformer与BiLSTM的网络流量入侵检测 被引量:8
7
作者 石磊 张吉涛 +2 位作者 高宇飞 卫琳 陶永才 《计算机工程》 CAS CSCD 北大核心 2023年第3期29-36,57,共9页
网络流量入侵检测技术对主机和平台安全起着重要作用。目前常采用机器学习和深度学习技术进行网络流量入侵检测,然而相关数据集的不平衡问题导致模型偏向于学习多数类数据的特征而忽视少数类数据的特征,严重影响了检测准确率。结合SMOT... 网络流量入侵检测技术对主机和平台安全起着重要作用。目前常采用机器学习和深度学习技术进行网络流量入侵检测,然而相关数据集的不平衡问题导致模型偏向于学习多数类数据的特征而忽视少数类数据的特征,严重影响了检测准确率。结合SMOTE算法和生成对抗网络(GAN)构建OSW模型对训练数据进行预处理,通过Wasserstein GAN学习少数类数据分布情况,避免边缘分布问题,构造平衡数据集。建立基于Transformer与双向长短时记忆-深度神经网络(BiLSTM-DNN)的TBD入侵检测模型,使用Transformer中的编码器捕捉全局联系并对输入数据进行初步特征提取,利用BiLSTM网络进行长距离依赖特征提取保留数据的序列化特征,采用DNN进一步提取深层次特征,最终通过Softmax分类器获得分类结果。在NSL_KDD数据集上的实验结果表明,在进行数据平衡处理后TBD模型的二分类和五分类任务检测准确率分别达到90.3%和79.8%,均高于对比的深度神经网络模型以及机器学习算法。 展开更多
关键词 入侵检测 多头注意力 双向长短时记忆网络 深度神经网络 数据平衡处理
下载PDF
基于遗传理论的改进数据过采样方法
8
作者 丁胜夺 赵刚 +1 位作者 阎红巧 刘洪太 《计算机系统应用》 2022年第2期185-190,共6页
针对数据分类预测模型的生成中,高度不平衡的训练数据会大幅降低模型的性能,本文提出了一种改进的基于遗传思想的不平衡数据集过采样方法,该方法从生物染色体遗传理论中得到启发,利用近亲生成相似而又不完全相同的新实例来平衡多数类,... 针对数据分类预测模型的生成中,高度不平衡的训练数据会大幅降低模型的性能,本文提出了一种改进的基于遗传思想的不平衡数据集过采样方法,该方法从生物染色体遗传理论中得到启发,利用近亲生成相似而又不完全相同的新实例来平衡多数类,在保证样本分布不变的前提下,减弱甚至消除不平衡数据对训练结果的偏差影响.最后,通过在公共数据集上的对比实验表明,该方法取得了更高的召回率及G-mean值,证明此改进方法行之有效,所生成模型的综合性能有所提高. 展开更多
关键词 过采样 平衡数据处理 分类预测模型 遗传理论
下载PDF
基于代价敏感学习的不平衡虚假评论处理模型 被引量:2
9
作者 刘美玲 尚玥 +1 位作者 赵铁军 周继云 《数据分析与知识发现》 CSCD 北大核心 2023年第6期113-122,共10页
【目的】增强虚假评论识别任务中模型对文本深层语义信息的学习能力,并解决虚假评论识别任务中存在的严重的数据不平衡问题。【方法】基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵,增强模型对不平衡数... 【目的】增强虚假评论识别任务中模型对文本深层语义信息的学习能力,并解决虚假评论识别任务中存在的严重的数据不平衡问题。【方法】基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵,增强模型对不平衡数据的学习能力;同时利用BERT在文本编码方面的能力进一步优化模型。【结果】在YelpCHI数据集上进行实验,对比现有先进方法(En-HGAN),本文模型的F1值提升了约18个百分点,AUC值提升了约12个百分点。【局限】未将所提模型应用到更多的研究领域中。【结论】将用户行为特征与评论文本特征看作虚假评论类与真实类之间的特征集合进行类别可分性计算能够有效提高模型对虚假评论识别的性能。 展开更多
关键词 虚假评论识别 类别可分性计算 代价敏感学习 平衡数据处理
原文传递
基于CatBoost算法的长江中游冬季降水相态预报方法研究 被引量:3
10
作者 王珊珊 雷彦森 +4 位作者 方鸿斌 孟英杰 章翠红 刘文婷 李康丽 《气象》 CSCD 北大核心 2022年第9期1153-1161,共9页
利用2000—2014年地面观测资料和欧洲中期天气预报中心(ECMWF)ERA5再分析资料,选取表征四类降水相态(雨、雪、雨夹雪、冻雨)的温度、湿度、微物理特征的43个特征量,使用精细地形高度订正,利用CatBoost算法开展长江中游降水相态预报方法... 利用2000—2014年地面观测资料和欧洲中期天气预报中心(ECMWF)ERA5再分析资料,选取表征四类降水相态(雨、雪、雨夹雪、冻雨)的温度、湿度、微物理特征的43个特征量,使用精细地形高度订正,利用CatBoost算法开展长江中游降水相态预报方法研究。结果显示:此方法对雨、雪、冻雨有较好的分类和预报效果。使用精细地形高度预处理后的特征量,能够提高降水相态判别的准确率和空间精细度。雨、雪、冻雨的预报准确率与ECMWF预报产品相比分别提高了9.9%、39.1%、11.1%,但对雨夹雪的改进不明显。 展开更多
关键词 降水相态 Catboost算法 平衡数据处理
下载PDF
一种基于IBDP-GRU模型的热带果树寒冻害预警技术 被引量:2
11
作者 张晓鹏 秦亮曦 +1 位作者 秦川 苏永秀 《广西大学学报(自然科学版)》 CAS 北大核心 2022年第4期1008-1017,共10页
针对热带果树寒冻害预警中涉及的气象数据不平衡问题,提出一种结合不平衡数据处理和门控循环单元的热带果树寒冻害预警模型(IBDP-GRU)。按照设定的低温阈值,将数据样本按其最低气温分为高于阈值(通常为多数)和低于阈值(通常为少数)2类;... 针对热带果树寒冻害预警中涉及的气象数据不平衡问题,提出一种结合不平衡数据处理和门控循环单元的热带果树寒冻害预警模型(IBDP-GRU)。按照设定的低温阈值,将数据样本按其最低气温分为高于阈值(通常为多数)和低于阈值(通常为少数)2类;利用提出的欠抽样算法对多数类样本进行欠抽样,并为不同类的训练样本赋予不同的权重;将训练样本和权重输入到GRU模型中训练;结合未来一天的最低气温预测值和相关热带果树的寒冻害指标判断这些果树在未来一天是否会受害。实验结果表明,IBDP-GRU能在不显著影响多数类样本预测的同时更加注重少数类样本的预测;在预测果树一天是否会受害时,IBDP-GRU对香蕉寒冻害预警的正报率分别比GRU、LSTM、CNN-GRU和BP模型的高16.4%、19.3%、20.3%、31.3%,对莲雾寒冻害预警的正报率分别比上述模型高18.7%、18.6%、20.5%、32.2%。 展开更多
关键词 深度学习 门控循环单元 平衡数据处理 气温预测 寒冻害预警
下载PDF
基于DE-lightGBM模型的上市公司高送转预测实证研究 被引量:1
12
作者 岑健铭 封全喜 +1 位作者 张丽丽 佟锐超 《计算机科学》 CSCD 北大核心 2022年第S02期137-143,共7页
“高送转”现象指上市公司转增较大比例的股票。针对上市公司实施“高送转”现象的预测问题,文中提出了一种基于差分进化算法超参数优化的lightGBM模型(简记为DE-lightGBM)。该模型主要包括两个方面:首先,利用差分进化算法调整lightGBM... “高送转”现象指上市公司转增较大比例的股票。针对上市公司实施“高送转”现象的预测问题,文中提出了一种基于差分进化算法超参数优化的lightGBM模型(简记为DE-lightGBM)。该模型主要包括两个方面:首先,利用差分进化算法调整lightGBM模型的损失函数中少数类别的权重以及正则项系数,以处理数据类别不平衡的问题;其次,以F1和AUC作为评价指标,再次利用差分进化算法优化li-ghtGBM模型的重要超参数变量,找到一组预测效果最优的参数组合。数值结果显示,DElightGBM模型取得了较好的效果,F1和AUC值分别为0.5368和0.8734。提出的DE-lightGBM模型能够有效识别下一年将会实施“高送转”的上市公司。 展开更多
关键词 高送转 差分进化算法 lightGBM 平衡数据处理 机器学习
下载PDF
基于Stacking算法的银行定期存款产品购买行为研究
13
作者 郑江怀 吕卫东 +1 位作者 王一朵 胡陈陈 《应用数学进展》 2022年第9期6426-6435,共10页
研究客户的购买行为以及客户的价值成为提高银行收益与优化营销策略的主要途径。本文通过研究客户购买某商业银行定期存款产品的相关数据,预测客户是否会购买该产品。使用LabelEncoding编码方法和SMOTE算法对数据进行处理。使用RFECV和G... 研究客户的购买行为以及客户的价值成为提高银行收益与优化营销策略的主要途径。本文通过研究客户购买某商业银行定期存款产品的相关数据,预测客户是否会购买该产品。使用LabelEncoding编码方法和SMOTE算法对数据进行处理。使用RFECV和GBDT算法进行特征选择,根据特征重要性获得影响客户是否购买的重要指标。使用决策树、SVM与GBDT算法以及Stacking算法对银行客户是否会购买定期存款产品进行研究,结果显示Stacking算法的预测效果比单一模型的预测效果更好。 展开更多
关键词 平衡数据处理 Stacking算法 准确率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部