期刊文献+
共找到2,452篇文章
< 1 2 123 >
每页显示 20 50 100
基于改进Mosaic数据增强和特征融合的Logo检测 被引量:15
1
作者 陈翠琴 范亚臣 王林 《计算机测量与控制》 2022年第10期188-194,201,共8页
近年来,Logo检测在知识产权保护和产品品牌管理等领域得到了广泛应用;针对Logo检测中的复杂背景和多尺度问题,提出了一种改进Mosaic数据增强和特征融合的Logo检测算法;将6张原始图片随机翻转、缩放和拼接构成合成图像,与单张图像和由4... 近年来,Logo检测在知识产权保护和产品品牌管理等领域得到了广泛应用;针对Logo检测中的复杂背景和多尺度问题,提出了一种改进Mosaic数据增强和特征融合的Logo检测算法;将6张原始图片随机翻转、缩放和拼接构成合成图像,与单张图像和由4张原始图片合成的图像一起作为YOLOv4模型的训练输入,并确定3种输入形式的最优比例,同时使用一种新的训练策略,改进的Mosaic数据增强方法丰富了Logo对象的尺度和背景,使模型更好地学习全局和局部特征;在路径整合网络(PANet)的基础上引入跨层连接、重复堆叠、直接连接和加权特征融合等操作,改进的PANet扩大了模型感受野,增强了模型的多尺度特征表达能力;实验结果表明,提出的MP-YOLOv4算法在减小21.7%模型大小的同时,IoU(intersection of union)等于0.5时的平均精度上达到了67.4%,较YOLOv4提高了2.4%,同时在多尺度目标上的检测性能得到了改善。 展开更多
关键词 Logo检测 YOLOv4 mosaic数据增强 特征融合 多尺度
下载PDF
数据驱动教育数字化转型的信任机制——教育大数据全生命周期隐私增强模型的构建与典型应用场景分析 被引量:2
2
作者 王涛 张玉平 +2 位作者 李秀晗 刘清堂 张思 《现代教育技术》 CSSCI 2024年第3期28-38,共11页
教育大数据正在成为驱动国家教育数字化转型战略行动的核心资源,带来了巨大的教育价值,但教育大数据的采集和分析产生了隐私侵害风险、信任危机等严峻问题,阻碍了数据的共享、开发和利用。如何增强教育大数据在开放共享、共建共用中的... 教育大数据正在成为驱动国家教育数字化转型战略行动的核心资源,带来了巨大的教育价值,但教育大数据的采集和分析产生了隐私侵害风险、信任危机等严峻问题,阻碍了数据的共享、开发和利用。如何增强教育大数据在开放共享、共建共用中的隐私保护和信任关系,成为制约数据驱动教育数字化转型的关键难题。对此,文章首先采用文献分析法,剖析了教育大数据隐私保护的研究现状与关键问题。随后,文章从应用场景角度设计了教育大数据全生命周期隐私增强框架,并基于此框架从技术实现角度构建了满足不同实体、不同阶段隐私需求的教育大数据全生命周期隐私增强模型及其应用流程。最后,文章介绍了该模型的典型应用场景,涉及学分与资质认证、教育协同与治理、可信评教、个性化学习服务等多个方面。文章的研究能够厘清教育大数据开放共享时的隐私保护关键问题和技术思路,可为实现教育数据要素化全生命周期的隐私保护、建立健全数据驱动教育数字化转型的信任机制提供参考。 展开更多
关键词 教育大数据 隐私增强 全生命周期 开放共享
下载PDF
基于NVAE和OB-Mix的小样本数据增强方法 被引量:1
3
作者 杨玮 钟名锋 +3 位作者 杨根 侯至丞 王卫军 袁海 《计算机工程与应用》 CSCD 北大核心 2024年第2期103-112,共10页
由于深度学习模型对海量标注数据的依赖性较高,导致目前许多前沿性目标检测理论难以适用于工业检测领域。为此,提出一种基于NVAE图像生成和OB-Mix数据增强的小样本数据扩充方法。具体方法是通过NVAE构建检测目标的数据分布模型,再通过... 由于深度学习模型对海量标注数据的依赖性较高,导致目前许多前沿性目标检测理论难以适用于工业检测领域。为此,提出一种基于NVAE图像生成和OB-Mix数据增强的小样本数据扩充方法。具体方法是通过NVAE构建检测目标的数据分布模型,再通过采样潜变量的方式生成与真实目标图像属于同一分布的全新目标图像。在得到生成目标图像后,提出了OB-Mix数据增强策略,将生成目标图像与背景图像进行随机位置融合以构建出新的图像数据,从而提高网络的定位能力及泛化能力。方法在仅使用474张标注图像以及400张无检测目标的背景图像情况下,使YOLOv5的检测精确率达到95.86%,相比于不使用该方法的结果提高了17.60个百分点。 展开更多
关键词 数据增强 小样本 数据生成 新派变分自编码器(NVAE) 表面缺陷检测 深度学习
下载PDF
随机通道扰动的图像数据增强方法
4
作者 姜文涛 刘玉薇 张晟翀 《计算机科学与探索》 CSCD 北大核心 2024年第11期2980-2995,共16页
数据增强中遮挡仿真方法将输入图像随机裁剪的区域像素全部置零,会擦除有效纹理特征,导致网络泛化能力欠佳。因此,提出一种随机通道扰动的图像数据增强方法(ChannelCut)。ChannelCut方法包括Channel-Cut1和ChannelCut2两种方法。在输入... 数据增强中遮挡仿真方法将输入图像随机裁剪的区域像素全部置零,会擦除有效纹理特征,导致网络泛化能力欠佳。因此,提出一种随机通道扰动的图像数据增强方法(ChannelCut)。ChannelCut方法包括Channel-Cut1和ChannelCut2两种方法。在输入图像上随机选取三个方形区域,并且对输入图像进行通道分离,得到三个通道图像;ChannelCut1方法在三个通道图像上分别选取一个方形区域将其像素置零,且三个通道选择的区域互不相同;ChannelCut2方法保留ChannelCut1方法中选取的方形区域像素,并将每个通道中剩余两个方形区域的像素置零;将两种方法处理后的三个通道图像分别进行合并,得到两种随机通道扰动图像。将所提方法融合到Resnet18、ShuffleNet V2、MobileNet V3等CNN模型中,并在CIFAR-10、Imagenette等五个数据集上开展实验。该方法在五个数据集上的分类准确率均优于主流方法,显著提高了基线模型的性能;在细粒度图像分类中更占有优势;在时间性能上优于使用强化学习的自动数据增强类型方法。该方法能够不同程度地保留图像纹理特征,丰富图像多样性,具有较强的通用性和有效性,显著地提高卷积神经网络模型的鲁棒性和泛化性。 展开更多
关键词 数据增强 遮挡仿真 通道扰动 纹理特征 图像分类
下载PDF
基于TimeGAN数据增强的复杂过程故障分类方法
5
作者 杨磊 何鹏举 丑幸幸 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第9期1768-1780,共13页
针对传统基于重构的故障分类方法在故障样本稀疏或失衡情况下效果不佳、故障子空间区分能力弱的问题,提出基于TimeGAN数据增强的复杂过程故障分类方法.针对小子样故障,使用TimeGAN对历史故障数据进行数据增强,生成与历史数据分布相似的... 针对传统基于重构的故障分类方法在故障样本稀疏或失衡情况下效果不佳、故障子空间区分能力弱的问题,提出基于TimeGAN数据增强的复杂过程故障分类方法.针对小子样故障,使用TimeGAN对历史故障数据进行数据增强,生成与历史数据分布相似的虚拟故障样本;采用马氏距离评估虚拟样本的质量,剔除不可信样本,构造平衡的故障样本集.将故障样本映射到高维核空间,并在核空间中提取故障子空间.设计故障分类策略并定义4种故障分类性能评估指标以定量衡量算法的分类性能.Tennessee Eastman应用结果表明,所提数据增强方法可以有效扩充故障样本,进而提高故障重构率.与WGAN-GP和SMOTE方法进行对比,发现基于TimeGAN数据增强的故障分类方法具有更好的分类性能. 展开更多
关键词 故障分类 样本不平衡 数据增强 故障子空间 时间序列生成对抗网络
下载PDF
基于生成对抗网络数据增强的舰炮可靠性分析
6
作者 聂磊 杨浩明 +2 位作者 尹业寒 董正琼 周向东 《火力与指挥控制》 CSCD 北大核心 2024年第4期38-43,50,共7页
舰炮故障数据不足会导致其可靠性分析变得极其困难。为解决故障数据不足这一问题,采用生成式对抗网络(generative adversarial network,GAN)对故障样本进行数据增强。建立GAN数据增强深度神经网络的舰炮可靠性分析模型,并与原始数据进... 舰炮故障数据不足会导致其可靠性分析变得极其困难。为解决故障数据不足这一问题,采用生成式对抗网络(generative adversarial network,GAN)对故障样本进行数据增强。建立GAN数据增强深度神经网络的舰炮可靠性分析模型,并与原始数据进行可靠性分析获得的指标进行了对比。结果表明,利用GAN数据增强后的扩充样本得到的指数分布拟合精度及威布尔分布拟合精度分别提高了5.40%和11.90%,相较于原始数据有了显著提升。为实现舰炮故障数据可靠性分析提供了方法和思路。 展开更多
关键词 舰炮故障 小样本 GAN 数据增强 可靠性
下载PDF
基于特征与数据增强的城市街景实例分割算法
7
作者 李成严 车子轩 郑企森 《哈尔滨理工大学学报》 CAS 北大核心 2024年第2期25-32,共8页
城市街景分割是智能交通领域中一项关键的技术,对于城市街景环境中的客观因素例如遮挡、小目标等问题,提出一种基于特征增强与数据增强的城市街景实例分割算法DF-SOLO(data augmentation and feature en-hancement SOLO)。针对遮挡问题... 城市街景分割是智能交通领域中一项关键的技术,对于城市街景环境中的客观因素例如遮挡、小目标等问题,提出一种基于特征增强与数据增强的城市街景实例分割算法DF-SOLO(data augmentation and feature en-hancement SOLO)。针对遮挡问题,通过非对称自编-解码器架构对城市街景图像进行数据增强,与传统方法相比处理后的图像更贴近真实的源数据分布。针对城市街景中的小目标分割问题,引入特征加权和特征融合的思想,特征加权模块在特征处理过程中能够根据特征的重要程度赋予不同的权值,提高对重要特征的利用率;特征融合模块从更细粒度的角度进行多尺度特征融合以解决尺度敏感问题,提高语义特征的描述性。通过在Cityscapes数据集上的实验表明,提出的实例分割算法在保证实时性的同时相较于单阶段SOLO算法和两阶段Mask R-CNN算法的mAP值上分别提升2.1%和2%,改善了对小目标和遮挡目标的分割效果。 展开更多
关键词 实例分割 SOLO算法 特征提取 数据增强 城市街景
下载PDF
基于图卷积网络和图数据增强技术的节点分类研究
8
作者 司亚超 刘子奇 赵明瞻 《河北建筑工程学院学报》 CAS 2024年第2期236-240,共5页
在图卷积网络中,节点分类是一个基本问题,它涉及到图中节点的标签预测。然而,由于真实世界中的图往往具有复杂的结构和噪声,节点分类准确率往往不尽如人意。为了解决这个问题,提出了一种使用图神经网络和图数据增强技术的方法来提高节... 在图卷积网络中,节点分类是一个基本问题,它涉及到图中节点的标签预测。然而,由于真实世界中的图往往具有复杂的结构和噪声,节点分类准确率往往不尽如人意。为了解决这个问题,提出了一种使用图神经网络和图数据增强技术的方法来提高节点分类准确率。首先,我们使用图数据增强技术对图数据进行预处理,对原始训练数据进行变换和扩展来生成更多训练样本,以此来提高模型的泛化性和鲁棒性,然后用图卷积网络模型对图数据进行节点分类,最后,在Cora数据集上进行了多次对比实验。实验结果表明,使用图卷积网络和图数据增强技术可以显著提高节点分类准确率,Cora数据集上的节点分类准确率从82.6%提高到了84.0%。 展开更多
关键词 图卷积网络 数据增强 节点分类 准确率
下载PDF
基于混合裁剪失衡数据增强与SwinNet网络的滚动轴承故障诊断
9
作者 火久元 李宇峰 +2 位作者 常琛 李超杰 许继豪 《振动与冲击》 EI CSCD 北大核心 2024年第6期64-74,共11页
针对在滚动轴承故障诊断领域中存在的故障样本较少,健康样本丰富所导致的故障类别失衡问题以及环境中存在噪声与人为噪声标签干扰等问题,提出了一种基于混合裁剪失衡数据增强与SwinNet网络相结合的故障诊断模型(fault diagnosis model c... 针对在滚动轴承故障诊断领域中存在的故障样本较少,健康样本丰富所导致的故障类别失衡问题以及环境中存在噪声与人为噪声标签干扰等问题,提出了一种基于混合裁剪失衡数据增强与SwinNet网络相结合的故障诊断模型(fault diagnosis model combining mixed-cutout imbalance data augmentation and SwinNet,SwinNet-MCIDA)。首先,借鉴图像分类数据增强方法,利用混合裁剪失衡数据增强算法对失衡类别的数据进行裁剪、混合处理生成新的故障样本来增加样本量,构造出增强数据集,然后对增强数据集进行小波变换转换成时频图像,将所得图像输入到卷积神经网络与Swin Transformer编码器相结合的SwinNet网络模型中,进行特征提取和故障分类,从而实现滚动轴承故障的高效诊断。试验结果表明,该文所提出的SwinNet-MCIDA故障诊断方法不仅可以很好地解决滚动轴承故障诊断领域故障类别失衡问题,而且也可以很好地应对故障数据中存在环境噪声问题与人为噪声标签干扰问题。 展开更多
关键词 滚动轴承 故障诊断 数据增强 卷积神经网络 Swin Transformer
下载PDF
基于语义上下文感知的文本数据增强方法研究
10
作者 张军 况泽 李钰彬 《现代电子技术》 北大核心 2024年第17期159-165,共7页
在文本分类任务中,数据的质量和数量对分类模型的性能有着重要影响,而在现实场景中获取大规模标记数据往往是昂贵和困难的。数据增强作为一种解决数据匮乏问题的低成本方法,已在各种深度学习和机器学习任务中取得了显著效果。由于文本... 在文本分类任务中,数据的质量和数量对分类模型的性能有着重要影响,而在现实场景中获取大规模标记数据往往是昂贵和困难的。数据增强作为一种解决数据匮乏问题的低成本方法,已在各种深度学习和机器学习任务中取得了显著效果。由于文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难。因此,提出基于语义上下文感知的数据增强方法,采用由WordNet 3.0中的词义定义(Gloss)和预训练模型BERT进行整合的Gloss选择模型,进一步识别上下文中目标词(尤其是多义词)的实际词义;然后根据下一个句子预测策略,将目标词的实际词义与被遮盖目标词的句子结合为一个句子对,使用掩码语言模型对句子对进行预测采样;最后计算语义文本相似度,并在三个基准分类数据集上对文中方法进行验证。实验结果表明,提出的方法在语义保留条件下,与选取的基线数据增强方法相比,在三个数据集的平均准确率指标上都有所提升,证明了文中方法的有效性。 展开更多
关键词 人工智能 自然语言处理 文本分类 数据增强 GLOSS 低资源
下载PDF
基于卷积神经网络的图像数据增强优化策略研究
11
作者 佟国香 刘洪俊 田飞翔 《计算机与数字工程》 2024年第7期2183-2188,共6页
论文基于卷积神经网络模型,提出一种改进的自动化图像数据增强策略。针对原有策略搜索空间的离散化及模型训练过程中超参数优化不稳定的问题,通过降低搜索空间策略的复杂度、优化子网络模型的训练过程、选取更有效率的增强随机搜索算法... 论文基于卷积神经网络模型,提出一种改进的自动化图像数据增强策略。针对原有策略搜索空间的离散化及模型训练过程中超参数优化不稳定的问题,通过降低搜索空间策略的复杂度、优化子网络模型的训练过程、选取更有效率的增强随机搜索算法实现超参数优化等方法对原有策略进行改进。并针对不同类型的数据集进行了验证,实验结果表明,论文提出的数据增强策略在CIFAR-10、CIFAR-100、ImageNet数据集上提升了图像分类的准确性,取得了先进的实验效果。 展开更多
关键词 卷积神经网络 图像数据增强 超参数优化 增强随机搜索 图像分类
下载PDF
基于数据增强的集成滤波对抗防御方法
12
作者 方贤进 薛明均 李志伟 《阜阳师范大学学报(自然科学版)》 2024年第2期15-23,共9页
深度神经网络(Deep neural networks,DNNs)具有强大的表达能力,能够从海量异构数据中学习到高层次和抽象的表示,然而DNNs在应用中易受到对抗样本攻击,从而给DNNs的应用带来严重的安全威胁。针对现有防御方法只适用于特定攻击算法以及需... 深度神经网络(Deep neural networks,DNNs)具有强大的表达能力,能够从海量异构数据中学习到高层次和抽象的表示,然而DNNs在应用中易受到对抗样本攻击,从而给DNNs的应用带来严重的安全威胁。针对现有防御方法只适用于特定攻击算法以及需要大量的原始对抗样本等问题,本文提出一种基于数据增强的集成对抗防御方法。首先通过数据增强方法来扩充对抗样本的数据量和多样性,以解决需要大量对抗样本的弊端;其次集成多种图像滤波方法,对对抗样本进行输入变换,实现防御效果具有通用性。实验以MNIST,CIFAR-10数据集为基础,实验结果证明了方法的有效性。 展开更多
关键词 对抗防御 对抗样本 图像滤波 数据增强
下载PDF
基于数据增强和集成学习的矿物图像识别 被引量:1
13
作者 王琳 季晓慧 +4 位作者 杨眉 何明跃 张招崇 曾姗 王玉柱 《地学前缘》 EI CAS CSCD 北大核心 2024年第4期87-94,共8页
矿物识别是地质学研究的一个重要部分,对于资源勘探、岩石分类和地质环境监测都有着重要的意义。然而,传统方法通常依赖人的经验进行主观判断,并且效率低下。近年来,已有许多研究将深度学习的图像分类技术应用于矿物识别,以客观快速地... 矿物识别是地质学研究的一个重要部分,对于资源勘探、岩石分类和地质环境监测都有着重要的意义。然而,传统方法通常依赖人的经验进行主观判断,并且效率低下。近年来,已有许多研究将深度学习的图像分类技术应用于矿物识别,以客观快速地识别矿物,这些研究都取得了一定的成果,但可识别矿物种类有限且精度需要进一步提升。为此本文首先解决了矿物数据集图像数据样本分布不平衡问题,对数据集中矿物图像较少的11个矿物类别采用DCGAN生成矿物图像进行数据增强,对比选择效果更好的方案对数据集进行扩充。其次,为了得到更可靠、精确度更高的识别模型,将ImageNet上表现较好的ResNet、RegNet、EfficientNet和Vision Transformer模型迁移到本文使用的矿物数据集上。针对训练好的基模型排列组合得到11个子模型,分别使用平均软投票法和加权软投票法两种方法进行集成,得到22个集成模型并对其训练得到识别结果,对比22个集成模型的结果选择出精度最高的集成模型。实验结果表明:使用DCGAN进行数据增强,在不同的模型上平均提升了3.12%的准确率,充分证明了DCGAN数据增强的有效性;在所有集成模型中,使用加权软投票法的模型表现较好,其中精度最高的是利用4个基分类模型进行加权软投票得到的集成模型,在扩充后的36种常见矿物数据集上达到了87.47%的准确率。 展开更多
关键词 矿物识别 深度卷积生成对抗网络 数据增强 集成学习
下载PDF
基于知识集成流形的电力设备缺陷文本数据增强方法与应用研究 被引量:1
14
作者 王绪亮 顾媛丽 +3 位作者 张鸿儒 刘灵慧 刘洪顺 李清泉 《电网技术》 EI CSCD 北大核心 2024年第4期1690-1699,I0082,I0083,I0084,共13页
当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种... 当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种针对电力设备缺陷文本的数据增强方法。首先,使用缺陷文本数据集微调预训练模型ERNIE(enhanced representation through knowledge integration),应用多阶段知识掩码策略将电气领域专业知识集成到对缺陷文本的动态编码中;然后在流形假设的基础上基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ERNIE构建重建函数,在“破坏-重建”过程中获得位于原始数据流形范围内的增强样本;其次对增强数据集基于影响函数和多样性度量进行数据选择,过滤掉数据质量差和重复度高的增强样本;最后通过多层训练框架,将增强数据应用于各种缺陷文本挖掘任务。算例基于真实设备巡检、检修记录构建了电力设备缺陷文本等级分类任务。结果表明,所提出的算法对缺陷文本挖掘效果有较大提升,并且可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中。 展开更多
关键词 电力设备缺陷文本 数据增强 知识集成 数据筛选
下载PDF
基于区块链技术的通信网络数据安全性增强方法研究
15
作者 姚芳 《通信电源技术》 2024年第12期143-145,共3页
随着信息技术的快速发展,通信网络已成为现代社会不可或缺的一部分,如何保障通信网络数据安全成为一个亟待解决的问题。区块链技术凭借其独特的去中心化、数据不可篡改性及透明性特点,提供了一种新的思路来增强通信网络的数据安全性。... 随着信息技术的快速发展,通信网络已成为现代社会不可或缺的一部分,如何保障通信网络数据安全成为一个亟待解决的问题。区块链技术凭借其独特的去中心化、数据不可篡改性及透明性特点,提供了一种新的思路来增强通信网络的数据安全性。文章通过深入分析区块链技术的原理和特性,提出一种基于区块链技术的通信网络数据安全性增强方法。通过实验验证,该方法能够提供更好的安全保障和更高的成本效益。 展开更多
关键词 区块链技术 通信网络 数据安全 增强方法
下载PDF
剪力墙结构智能化生成式设计方法:从数据驱动到物理增强 被引量:4
16
作者 廖文杰 陆新征 +3 位作者 黄羽立 赵鹏举 费一凡 郑哲 《土木与环境工程学报(中英文)》 CSCD 北大核心 2024年第1期82-92,共11页
建筑结构的智能化方案设计是智能建造的重要内容。既有研究提出了基于深度神经网络的剪力墙结构生成式设计方法框架、智能设计算法、设计性能评价方法等,完成了从数据驱动到物理增强的智能化设计方法的发展,但目前尚未有研究针对不同设... 建筑结构的智能化方案设计是智能建造的重要内容。既有研究提出了基于深度神经网络的剪力墙结构生成式设计方法框架、智能设计算法、设计性能评价方法等,完成了从数据驱动到物理增强的智能化设计方法的发展,但目前尚未有研究针对不同设计条件下数据驱动和物理增强方法的设计能力进行详细对比,且基于计算机视觉与基于力学性能的评价方法尚未有明确的关系,难以有效保证计算机视觉评价方法的合理性。基于深度生成式算法对比和算例分析,开展数据驱动和物理增强数据驱动方法的详细对比,并进一步验证基于计算机视觉评价与基于力学分析评价方法的正相关性。结果表明:数据驱动的方法易受到数据质量与数量的约束,而物理增强数据驱动的方法设计性能更加稳定,基本摆脱数据质量和数量的约束;基于计算机视觉综合评价指标SCV的合理性阈值为0.5,对应力学性能差异约为10%。 展开更多
关键词 智能化结构设计 生成对抗网络 数据驱动 物理增强 设计评价
下载PDF
面向抽取式阅读理解的数据增强研究
17
作者 胡新荣 徐伟 +4 位作者 罗瑞奇 刘军平 朱强 杨捷 李立军 《软件导刊》 2024年第6期32-37,共6页
在抽取式阅读理解中,语言模型在训练数据较少情况下的表现不佳,使用EDA方法虽能有效增加数据量,但会造成数据中语义信息损失,导致模型训练效果不佳。针对上述问题,结合EDA提出面向少样本情况下抽取式阅读理解的数据增强方法,在保留数据... 在抽取式阅读理解中,语言模型在训练数据较少情况下的表现不佳,使用EDA方法虽能有效增加数据量,但会造成数据中语义信息损失,导致模型训练效果不佳。针对上述问题,结合EDA提出面向少样本情况下抽取式阅读理解的数据增强方法,在保留数据中问题正确答案的前提下对数据进行单词级和句子级数据增强。同时,为了对句子语义影响最小的单词进行数据增强,使用基于语义相似度的数据增强方法(DASS)计算句子中某一个单词删除前后的语义相似度,以判断该单词对句子语义的影响,选择对语义影响最小的单词进行数据增强,提升训练数据质量,以提升语言模型鲁棒性。在HotpotQA数据集上的实验结果表明,DASS可以解决模型在样本数量较少时获取语义信息不足的问题,在样本数量为500时,模型预测的F1值提升23.94%,在对整个数据集使用该方法时,模型预测的F1值提升了2.54%。 展开更多
关键词 抽取式阅读理解 EDA 数据增强 语义相似度 机器阅读理解
下载PDF
基于自引导进化策略的高效自动化数据增强算法 被引量:1
18
作者 朱光辉 陈文忠 +2 位作者 朱振南 袁春风 黄宜华 《软件学报》 EI CSCD 北大核心 2024年第6期3013-3035,共23页
深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能.数据增强可以非常有效地提升训练数据的规模以及多样性,从而提高模型的泛化性.但是,对于给定数据集,设计优异的数据增强策略大量依赖专家经验和领域知识,而且需要反... 深度学习在图像、文本、语音等媒体数据的分析任务上取得了优异的性能.数据增强可以非常有效地提升训练数据的规模以及多样性,从而提高模型的泛化性.但是,对于给定数据集,设计优异的数据增强策略大量依赖专家经验和领域知识,而且需要反复尝试,费时费力.近年来,自动化数据增强通过机器自动设计数据增强策略,已引起了学界和业界的广泛关注.为了解决现有自动化数据增强算法尚无法在预测准确率和搜索效率之间取得良好平衡的问题,提出一种基于自引导进化策略的自动化数据增强算法SGES AA.首先,设计一种有效的数据增强策略连续化向量表示方法,并将自动化数据增强问题转换为连续化策略向量的搜索问题.其次,提出一种基于自引导进化策略的策略向量搜索方法,通过引入历史估计梯度信息指导探索点的采样与更新,在能够有效避免陷入局部最优解的同时,可提升搜索过程的收敛速度.在图像、文本以及语音数据集上的大量实验结果表明,所提算法在不显著增加搜索耗时的情况下,预测准确率优于或者匹配目前最优的自动化数据增强方法. 展开更多
关键词 深度学习 数据增强 自动化机器学习 自引导进化策略
下载PDF
基于SciBERT与ChatGPT数据增强的研究流程段落识别 被引量:3
19
作者 张恒 赵毅 章成志 《情报理论与实践》 CSSCI 北大核心 2024年第1期164-172,153,共10页
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数... [目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F_(1)值分别达到了0.9414和0.9409。 展开更多
关键词 学术文本 研究流程段落 文本分类 SciBERT ChatGPT数据增强
下载PDF
非完备数据集下的标准自学习数据增强滚动轴承故障诊断方法 被引量:1
20
作者 安增辉 江星星 +3 位作者 杨蕊 赵磊 朱忠奎 李舜酩 《振动工程学报》 EI CSCD 北大核心 2024年第4期667-676,共10页
滚动轴承的智能故障诊断是设备安全、高效运行的重要保障。然而,非平稳的运行工况使采集到的训练数据集呈现不完备的特点,导致基于数据驱动的模型仅能从中学习到极为有限的诊断知识,致使诊断准确率大幅下降。针对此问题,以生成扰动样本... 滚动轴承的智能故障诊断是设备安全、高效运行的重要保障。然而,非平稳的运行工况使采集到的训练数据集呈现不完备的特点,导致基于数据驱动的模型仅能从中学习到极为有限的诊断知识,致使诊断准确率大幅下降。针对此问题,以生成扰动样本扩充原始数据集的完备性为目的,提出了标准自学习数据增强故障诊断方法。该方法包含标准自学习和数据增强两个训练步骤,将一维卷积神经网络的训练过程看作模型自学习出评判扰动样本的标准,基于此标准,采用样本参数化与模型数据化方法生成扰动样本。两步骤交叉进行,不仅能生成扰动数据、增强数据集完备性,同时能获得非平稳工况下的故障诊断模型。此外,通过研究不同数据生成次序的样本差异,发现所提方法在生成数据时,通过数据生成距离与方向的随机性叠加,保证了生成样本的多样性。实验结果表明所提方法在不完备的训练数据集下对非平稳工况样本的诊断具有有效性和优越性。 展开更多
关键词 智能故障诊断 滚动轴承 数据增强 非平稳工况
下载PDF
上一页 1 2 123 下一页 到第
使用帮助 返回顶部