期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
一种基于双重语义协作网络的图像描述方法
1
作者 江泽涛 朱文才 +2 位作者 金鑫 廖培期 黄景帆 《计算机研究与发展》 EI CSCD 北大核心 2024年第11期3897-3908,共12页
CLIP(contrastive language-image pre-training)视觉编码器提取的网格特征作为一种更加靠近文本域的视觉特征,具有易转化为对应语义自然语言的特点,可以缓解语义鸿沟问题,因而未来可能成为图像描述任务中视觉特征的重要来源.但该方法... CLIP(contrastive language-image pre-training)视觉编码器提取的网格特征作为一种更加靠近文本域的视觉特征,具有易转化为对应语义自然语言的特点,可以缓解语义鸿沟问题,因而未来可能成为图像描述任务中视觉特征的重要来源.但该方法中未考虑图像内容的划分,可能使一个完整的目标被划分到若干个网格中,目标被切割势必会导致特征提取结果中缺少对目标信息的完整表达,进而导致生成的描述语句中缺少对目标及目标间关系的准确表述.针对CLIP视觉编码器提取网格特征这一现象,提出一种基于双重语义协作网络(dual semantic collaborative network,DSC-Net)的图像描述方法.具体来说:首先提出双重语义协作自注意力(dual semantic collaborative self-attention,DSCS)模块增强CLIP网格特征对目标信息的表达能力;接着提出双重语义协作交叉注意力(dual semantic collaborative cross-attention,DSCC)模块,综合网格和目标2个层面的语义构造与文本相关的视觉特征,进行描述语句预测;最后提出双重语义融合(dual semantic fusion,DSF)模块,为上述的2个语义协作模块提供以区域为主导的融合特征,解决在语义协作过程中可能出现的相关性冲突问题.经过在COCO数据集上的大量实验,提出的模型在Karpathy等人划分的离线测试集上取得了138.5%的CIDEr分数,在官方在线测试中取得了137.6%的CIDEr分数,与目前主流的图像描述方法相比具有显著优势. 展开更多
关键词 图像描述 网格特征 注意力机制 双重语义协作注意力 双重语义协作特征融合
下载PDF
基于外部先验和自先验注意力的图像描述生成方法
2
作者 李永杰 钱艺 文益民 《计算机科学》 CSCD 北大核心 2024年第7期214-220,共7页
图像描述是一种结合计算机视觉和自然语言处理的跨模态任务,旨在理解图像内容并生成恰当的句子。现有的图像描述方法通常使用自注意力机制来捕获样本内的长距离依赖关系,但这种方式不仅忽略了样本间的潜在相关性,而且缺乏对先验知识的利... 图像描述是一种结合计算机视觉和自然语言处理的跨模态任务,旨在理解图像内容并生成恰当的句子。现有的图像描述方法通常使用自注意力机制来捕获样本内的长距离依赖关系,但这种方式不仅忽略了样本间的潜在相关性,而且缺乏对先验知识的利用,导致生成内容与参考描述存在一定差异。针对上述问题,文中提出了一种基于外部先验和自先验注意力(External Prior and Self-prior Attention, EPSPA)的图像描述方法。其中,外部先验模块能够隐式地考虑到样本间的潜在相关性进而减少来自其他样本的干扰信息。同时,自先验注意力能够充分利用上一层的注意力权重来模拟先验知识,使其指导模型进行特征提取。在公开数据集上使用多种指标对EPSPA进行评估,实验结果表明该方法能够在保持低参数量的前提下表现出优于现有方法的性能。 展开更多
关键词 图像描述 自注意力机制 潜在相关性 外部先验模块 自先验注意力
下载PDF
基于聚簇模型重用的概念漂移数据流半监督分类算法 被引量:1
3
作者 康伟 黎利辉 文益民 《计算机科学》 CSCD 北大核心 2024年第4期124-131,共8页
带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史... 带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法1)能有效适应概念漂移,与现有方法相比其性能有显著性提升。 展开更多
关键词 数据流 半监督学习 概念漂移 聚簇模型重用 集成学习
下载PDF
结合特征增强和多尺度感受野的低照度目标检测 被引量:4
4
作者 江泽涛 翟丰硕 +2 位作者 钱艺 肖芸 张少钦 《计算机研究与发展》 EI CSCD 北大核心 2023年第4期903-915,共13页
低照度图像普遍存在噪声、颜色失真和低对比度等图像退化问题,不仅影响视觉体验,而且严重影响低照度目标检测精度.为了更好地完成低照度目标检测任务,提出一种结合特征增强和多尺度感受野(feature enhancement and multi-scale receptiv... 低照度图像普遍存在噪声、颜色失真和低对比度等图像退化问题,不仅影响视觉体验,而且严重影响低照度目标检测精度.为了更好地完成低照度目标检测任务,提出一种结合特征增强和多尺度感受野(feature enhancement and multi-scale receptive field,FEMR)的低照度目标检测算法.首先,像素级高阶映射(pixel-level high-order mapping,PHM)模块学习低照度到正常照度的高阶映射关系,进而提高低照度目标特征显著性,从而获得初步增强的特征信息.然后,关键信息增强(key information enhancement,KIE)模块结合多种注意力机制,突出重要特征并过滤噪声信息,获得进一步增强的特征信息.此外,长距离特征捕获(long distance feature capture,LFC)模块引入多种尺度的条状感受野,捕获低照度场景中孤立区域的长距离关系.实验表明,所提算法在低照度目标检测精度方面具有较好的表现,同时能直接输出正常照度风格图像下的检测结果,实现端到端的低照度目标检测,便于人眼直接评估检测结果的精度. 展开更多
关键词 低照度 目标检测 特征增强 多尺度感受野 长距离关系
下载PDF
具有双层路由注意力的YOLOv8道路场景目标检测方法 被引量:10
5
作者 魏陈浩 杨睿 +3 位作者 刘振丙 蓝如师 孙希延 罗笑南 《图学学报》 CSCD 北大核心 2023年第6期1104-1111,共8页
随着机动车的数量不断增加,道路交通环境变得更加复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰。针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基... 随着机动车的数量不断增加,道路交通环境变得更加复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰。针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基础上首先针对骨干网络构建了基于可变形卷积的D_C2f块,强化了特征提取网络对复杂背景下目标的特征学习,更好地适应道路目标复杂多变的情形;其次增加了双层路由注意力模块,以查询自适应的方式去除不相关的区域,留下相关度最高的区域;最后针对道路上行人、交通灯等小目标增加小目标检测层。实验表明,本文提出的YOLOv8n_T有效提高了模型在道路场景下的目标检测精度,在BDD100K数据集上的平均精度比原始YOLOv8n提升了6.8个百分点,比YOLOv5n提升了11.2个百分点。 展开更多
关键词 可变形卷积 道路场景 目标检测 YOLO 注意力机制
下载PDF
面向机械臂操作的视觉信息实时重建方法 被引量:1
6
作者 贾清玉 常亮 +4 位作者 杨先一 强保华 张世豪 谢武 杨明浩 《计算机应用》 CSCD 北大核心 2023年第4期1255-1260,共6页
现阶段的机械臂技能传授方法主要通过三维实时重建技术搭建虚拟空间进行模拟训练。然而人与机械臂视角不同,传统视觉信息重建方法由于重建误差大、时间长,而且实验环境苛刻、所需传感器较多等原因,导致机械臂在虚拟空间内习得的技能不... 现阶段的机械臂技能传授方法主要通过三维实时重建技术搭建虚拟空间进行模拟训练。然而人与机械臂视角不同,传统视觉信息重建方法由于重建误差大、时间长,而且实验环境苛刻、所需传感器较多等原因,导致机械臂在虚拟空间内习得的技能不能很好地迁移于现实环境。针对以上问题,提出了一种面向机械臂操作的视觉信息实时重建方法。首先,通过Mask-RCNN(Mask-Region Convolutional Neural Network)对实时采集到的RGB图像提取信息;然后,将提取后的RGB图像及其他视觉信息联合编码,并通过ResNet-18将视觉信息映射为机械臂操作空间的三维位置信息;最后,为减小重建误差,提出了一种聚类簇中心距离受限离群值调整方法(CC-DIS),并利用OpenGL(Open Graphics Library)将调整后的位置信息可视化,完成机械臂操作空间三维实时重建。实验结果表明,所提的实时重建方法具有较快的重建速度和较高的重建精度,完成一次三维重建仅需62.92 ms,重建速度高达每秒16帧,重建相对误差约为5.23%,能有效用于机械臂技能传授任务。 展开更多
关键词 技能传授 Mask-RCNN ResNet-18 三维实时重建 机械臂
下载PDF
一种新的半监督归纳迁移学习框架:Co-Transfer 被引量:1
7
作者 文益民 员喆 余航 《计算机研究与发展》 EI CSCD 北大核心 2023年第7期1603-1614,共12页
在许多实际的数据挖掘应用场景,如网络入侵检测、Twitter垃圾邮件检测、计算机辅助诊断等中,与目标域分布不同但相关的源域普遍存在.一般情况下,在源域和目标域中都有大量未标记样本,对其中的每个样本都进行标记是件困难的、昂贵的、耗... 在许多实际的数据挖掘应用场景,如网络入侵检测、Twitter垃圾邮件检测、计算机辅助诊断等中,与目标域分布不同但相关的源域普遍存在.一般情况下,在源域和目标域中都有大量未标记样本,对其中的每个样本都进行标记是件困难的、昂贵的、耗时的事,有时也没必要.因此,充分挖掘源域和目标域中标记和未标记样本来解决目标域中的分类任务非常重要且有意义.结合归纳迁移学习和半监督学习,提出一种名为Co-Transfer的半监督归纳迁移学习框架.Co-Transfer首先生成3个TrAdaBoost分类器用于实现从原始源域到原始目标域的迁移学习,同时生成另外3个TrAdaBoost分类器用于实现从原始目标域到原始源域的迁移学习.这2组分类器都使用从原始源域和原始目标域的原有标记样本的有放回抽样来训练.在Co-Transfer的每一轮迭代中,每组TrAdaBoost分类器使用新的训练集更新,其中一部分训练样本是原有的标记样本,一部分是由本组TrAdaBoost分类器标记的样本,还有一部分则由另一组TrAdaBoost分类器标记.迭代终止后,把从原始源域到原始目标域的3个TrAdaBoost分类器的集成作为原始目标域分类器.在UCI数据集和文本分类数据集上的实验结果表明,Co-Transfer可以有效地学习源域和目标域的标记和未标记样本从而提升泛化性能. 展开更多
关键词 半监督学习 迁移学习 多任务学习 双向迁移 集成学习
下载PDF
基于判别性矩阵分解的多标签跨模态哈希检索 被引量:1
8
作者 谭钰 王小琴 +2 位作者 蓝如师 刘振丙 罗笑南 《计算机应用》 CSCD 北大核心 2023年第5期1349-1354,共6页
现有的跨模态哈希算法低估了不同类别标签之间语义差异的重要性,忽略了哈希向量的平衡条件,导致所学习到的哈希码的判别性能差。此外,一些方法利用标签信息构造相似性矩阵,并将多标签数据视为单标签数据进行建模,这在多标签跨模态检索... 现有的跨模态哈希算法低估了不同类别标签之间语义差异的重要性,忽略了哈希向量的平衡条件,导致所学习到的哈希码的判别性能差。此外,一些方法利用标签信息构造相似性矩阵,并将多标签数据视为单标签数据进行建模,这在多标签跨模态检索中造成了较大的语义损失。为了保留异构数据之间精确的相似程度和哈希向量的平衡特性,提出了一种新的有监督哈希算法——基于判别性矩阵分解的多标签跨模态哈希检索(DMFH)。该方法利用核化特征的协同矩阵分解(CMF)获得了一个共享的隐式子空间;同时利用数据之间共有标签的比例来描述异构数据的相似程度;此外,利用标签的平衡信息构造平衡矩阵,生成具有平衡特性的哈希向量,并最大化不同类别标签之间的类间距。在两个常用多标签数据集MIRFlickr和NUS-WIDE上与7种先进的跨模态哈希方法进行对比,在“以图搜文”(I2T)和“以文搜图”(T2I)任务上,DMFH均取得了最高的平均精度均值(mAP),而且T2I任务的mAP更优,说明DMFH能够更有效地利用文本模态中的多标签语义信息。还分析了所构造的平衡矩阵与相似性矩阵的有效性,验证了DMFH算法能有效保持语义信息和相似性关系,在多标签跨模式检索中是有效的。 展开更多
关键词 跨模态检索 矩阵分解 哈希学习 平衡向量 多标签数据
下载PDF
插值Loop细分Pytorch3D三维VR重建
9
作者 史卓 曾树珍 +1 位作者 王萌 玉珂 《中国科技论文》 CAS 北大核心 2023年第7期753-758,共6页
针对Pytorch3D三维重建的模型易产生空洞、断角和狭长三角形的问题,提出一种基于插值Loop细分的Pytorch3D三维重建方法。首先从20个视角对1个包含纹理的三维模型进行采样,采样后的图像合成为原始数据集;接着使用ResNet-50网络学习图像特... 针对Pytorch3D三维重建的模型易产生空洞、断角和狭长三角形的问题,提出一种基于插值Loop细分的Pytorch3D三维重建方法。首先从20个视角对1个包含纹理的三维模型进行采样,采样后的图像合成为原始数据集;接着使用ResNet-50网络学习图像特征,使用三维卷积模块提取三维特征;随后用插值Loop细分原始网格,并以结果网格作为变形网格,将提取的特征投影到网格顶点上,利用图卷积神经网络实现变形,最终完成三维重建。结果表明,所提方法较好地解决了原版Pytorch3D方法的空洞、断角、狭长三角形问题,重建损失值和Hausdorff距离显著下降,三维重建可视化效果更好。 展开更多
关键词 三维重建 可微计算 网格变形 网格预测 插值Loop细分
下载PDF
基于知识图谱的文学叙事可视化研究
10
作者 史卓 王萌 +1 位作者 曾树珍 玉珂 《中国科技论文》 CAS 北大核心 2023年第11期1230-1235,1243,共7页
为了方便读者理解长篇文学作品、理清故事情节和人物关系,针对如何将知识图谱和叙事可视化结合以达到上述目的展开研究。以“激流三部曲”为研究案例,运用共词分析法构建共现矩阵,使用Apriori算法挖掘关联规则,采用狄利克雷分布(latent ... 为了方便读者理解长篇文学作品、理清故事情节和人物关系,针对如何将知识图谱和叙事可视化结合以达到上述目的展开研究。以“激流三部曲”为研究案例,运用共词分析法构建共现矩阵,使用Apriori算法挖掘关联规则,采用狄利克雷分布(latent Dirichlet allocation,LDA)模型划分文章主题,通过知识获取方法整理并抽取文本中的实体、属性、关系,利用资源描述框架(resource description framework,RDF)存储人物关系数据,构建知识图谱。再使用iStoryline对文学作品的剧情脉络进行叙事可视化,并将知识图谱与故事线并列对照显示。将自然语言处理、知识图谱和叙事可视化故事线相结合,使读者能够在了解人物关系的同时,理清故事的情节脉络。 展开更多
关键词 知识图谱 叙事可视化 APRIORI LDA主题模型 iStoryline
下载PDF
基于改进DAN的自然场景下越南文字的识别
11
作者 王利兵 俸亚特 文益民 《数据采集与处理》 CSCD 北大核心 2023年第5期1058-1068,共11页
越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention net... 越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。 展开更多
关键词 声调语言文字 越南语文字 变音符号 注意力漂移 场景文本识别
下载PDF
基于网络本体语言的三维计算机辅助设计主模型相似性计算方法 被引量:5
12
作者 钟艳如 梁毅芳 +4 位作者 许本胜 曾聪文 卢宏成 吴帆 赵争君 《计算机应用》 CSCD 北大核心 2016年第6期1599-1604,共6页
为了提高三维计算机辅助设计(CAD)模型重用效率,针对当前三维模型检索系统中语义表达不足问题,提出了一种基于网络本体语言(OWL)表示模型语义的相似性计算方法。首先,将三维CAD产品主模型转化成以概念属性特征为基础语义对象的结构化表... 为了提高三维计算机辅助设计(CAD)模型重用效率,针对当前三维模型检索系统中语义表达不足问题,提出了一种基于网络本体语言(OWL)表示模型语义的相似性计算方法。首先,将三维CAD产品主模型转化成以概念属性特征为基础语义对象的结构化表示模型;然后,从OWL表示模型中提取用于评价两个模型相似性的特征语义信息,构建可量化的相似元集,借助子图同构思想和Tversky算法给出了一种加权相似性计算方法;最后,通过实例验证了所提方法的有效性和可行性。实验的定量评价结果表明,该评价基准从对象本身转为两个对象特性的语义描述,能够客观反映两对比模型的相似程度。 展开更多
关键词 网络本体语言语义 相似性计算 产品主模型 模型重用 结构化
下载PDF
基于改进CPMs和SqueezeNet的轻量级人体骨骼关键点检测模型 被引量:3
13
作者 强保华 翟艺杰 +4 位作者 陈金龙 谢武 郑虹 王学文 张世豪 《计算机应用》 CSCD 北大核心 2020年第6期1806-1811,共6页
针对目前的人体骨骼关键点检测模型参数多、训练时间长和检测速度慢的问题,提出了一种将人体骨骼关键点检测模型CPMs与小型卷积神经网络模型SqueezeNet相结合的检测方法。首先,采用4个Stage的CPMs(CPMsStage4)对人物图像进行关键点检测... 针对目前的人体骨骼关键点检测模型参数多、训练时间长和检测速度慢的问题,提出了一种将人体骨骼关键点检测模型CPMs与小型卷积神经网络模型SqueezeNet相结合的检测方法。首先,采用4个Stage的CPMs(CPMsStage4)对人物图像进行关键点检测;然后,在CPMs-Stage4中引入SqueezeNet的Fire Module网络结构,利用Fire Module结构大大压缩模型参数,得到一种新的轻量级人体骨骼关键点检测模型SqueezeNet15-CPMs-Stage4。在扩展的LSP数据集上的验证结果显示,与CPMs相比,SqueezeNet15-CPMs-Stage4模型在训练时间上减少86.68%,在单张图像检测时间上减少44.27%,准确率达到90.4%;与改进的VGG-16、DeepCut和DeeperCut三种参照模型相比,SqueezeNet15-CPMs-Stage4模型在训练时间、检测速度和准确率方面均是最优的。实验结果表明,所提模型不仅检测准确率高,而且训练时间短、检测速度快,能够有效降低人体骨骼关键点检测模型的训练成本。 展开更多
关键词 人体骨骼关键点检测 人体姿态估计 深度学习 卷积神经网络 轻量级 CPMS SqueezeNet
下载PDF
基于级联网络的行人检测方法 被引量:6
14
作者 陈光喜 王佳鑫 +2 位作者 黄勇 詹益俊 詹宝莹 《计算机应用》 CSCD 北大核心 2019年第1期186-191,共6页
针对复杂环境下行人检测不能同时满足高召回率与高效率检测的问题,提出一种基于卷积神经网络(CNN)的行人检测方法。首先,采用CNN中的单步检测升级版网络YOLOv2初步检测行人;然后,设计一个网络与YOLOv2网络级联。设计的网络具有目标分类... 针对复杂环境下行人检测不能同时满足高召回率与高效率检测的问题,提出一种基于卷积神经网络(CNN)的行人检测方法。首先,采用CNN中的单步检测升级版网络YOLOv2初步检测行人;然后,设计一个网络与YOLOv2网络级联。设计的网络具有目标分类和边界框回归的功能,对YOLOv2初步检测出的行人位置进行再分类与回归,以此降低误检,提高召回率;最后,采用非极大值抑制(NMS)处理的方法去除冗余的边界框。实验结果显示,在数据集INRIA和Caltech上,所提方法与原始YOLOv2相比,召回率提高3. 3个百分点,准确率提高5. 1个百分点,同时速度上达到了11. 6帧/s,实现了实时检测。与现有的流行的行人检测方法相比,所提方法具有更好的整体性能。 展开更多
关键词 行人检测 卷积神经网络 级联网络 分类回归 实时检测
下载PDF
概念漂移数据流半监督分类综述 被引量:10
15
作者 文益民 刘帅 +2 位作者 缪裕青 易新河 刘长杰 《软件学报》 EI CSCD 北大核心 2022年第4期1287-1314,共28页
在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而... 在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视.因此,在全面收集数据流半监督分类研究工作的基础上,对现有带概念漂移的数据流的半监督分类算法进行了多角度划分;并以算法采用的分类器类型为线索,对已有的多个算法进行了介绍与总结,包括现有数据流半监督分类采用的概念漂移检测方法;在一些被广泛使用的真实数据集和人工数据集上,对部分代表性数据流半监督分类算法进行了多方面的比较与分析;最后,提出了当前概念漂移数据流半监督分类中一些值得进一步深入探讨的问题.实验结果表明:数据流半监督分类算法的分类准确率与众多因素有关,但与数据分布的变化关系最大.本综述将有助于感兴趣的研究者快速进入数据流半监督分类问题领域. 展开更多
关键词 数据挖掘 概念漂移 数据流 集成学习 半监督分类
下载PDF
基于改进的BSMOTE和时序特征的风机故障采样算法 被引量:4
16
作者 杨鲜 赵计生 +4 位作者 强保华 米路中 彭博 唐成华 李宝莲 《计算机应用》 CSCD 北大核心 2021年第6期1673-1678,共6页
针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本... 针对风机数据集的不平衡问题,提出了一种BSMOTE-Sequence采样算法,在合成新样本时综合考虑空间和时间特征,并对新样本进行清洗,从而有效减少噪声点的生成。首先,根据每个少数类样本的近邻样本的类别比例,将少数类样本划分为安全类样本、边界类样本和噪声类样本。然后,对每个边界类样本都遴选出空间距离、时间跨度最接近的少数类样本集,利用线性插值法合成新样本,并过滤掉噪声类样本以及类间重叠样本。最后,以支持向量机(SVM)、卷积神经网络(CNN)、长短期记忆(LSTM)人工神经网络作为风机齿轮箱故障检测模型,F1-Score、曲线下面积(AUC)和G-mean作为模型性能评价指标,在真实风机数据集上把所提算法与常用的多种采样算法进行对比,实验结果表明:相比已有算法,BSMOTE-Sequence算法所生成样本的分类效果更好,使得检测模型的F1-Score、AUC和G-mean平均提高了3%,该算法能有效地适用于数据具有时序规律且不平衡的风机故障检测领域。 展开更多
关键词 风机故障检测 不均衡数据 时序特征 采样算法 类间重叠样本
下载PDF
基于改进Mask R-CNN的越南场景文字检测
17
作者 俸亚特 文益民 《计算机应用》 CSCD 北大核心 2021年第12期3551-3557,共7页
针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络MaskR-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并... 针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络MaskR-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制(NMS)算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络(FPN)和区域生成网络(RPN)的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明,与MaskR-CNN相比,所提算法在不同的交并比(IoU)阈值下都具有更好的准确率与召回率。 展开更多
关键词 MaskR-CNN 越南场景文字检测 声调符号 模型联合训练 分割模型 重复检测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部