期刊文献+
共找到103篇文章
< 1 2 6 >
每页显示 20 50 100
Adequate alignment and interaction for cross-modal retrieval
1
作者 Mingkang WANG Min MENG +1 位作者 Jigang LIU Jigang WU 《Virtual Reality & Intelligent Hardware》 EI 2023年第6期509-522,共14页
Background Cross-modal retrieval has attracted widespread attention in many cross-media similarity search applications,particularly image-text retrieval in the fields of computer vision and natural language processing... Background Cross-modal retrieval has attracted widespread attention in many cross-media similarity search applications,particularly image-text retrieval in the fields of computer vision and natural language processing.Recently,visual and semantic embedding(VSE)learning has shown promising improvements in image text retrieval tasks.Most existing VSE models employ two unrelated encoders to extract features and then use complex methods to contextualize and aggregate these features into holistic embeddings.Despite recent advances,existing approaches still suffer from two limitations:(1)without considering intermediate interactions and adequate alignment between different modalities,these models cannot guarantee the discriminative ability of representations;and(2)existing feature aggregators are susceptible to certain noisy regions,which may lead to unreasonable pooling coefficients and affect the quality of the final aggregated features.Methods To address these challenges,we propose a novel cross-modal retrieval model containing a well-designed alignment module and a novel multimodal fusion encoder that aims to learn the adequate alignment and interaction of aggregated features to effectively bridge the modality gap.Results Experiments on the Microsoft COCO and Flickr30k datasets demonstrated the superiority of our model over state-of-the-art methods. 展开更多
关键词 cross-modal retrieval Visual semantic embedding Feature aggregation Transformer
下载PDF
CSMCCVA:Framework of cross-modal semantic mapping based on cognitive computing of visual and auditory sensations 被引量:1
2
作者 刘扬 Zheng Fengbin Zuo Xianyu 《High Technology Letters》 EI CAS 2016年第1期90-98,共9页
Cross-modal semantic mapping and cross-media retrieval are key problems of the multimedia search engine.This study analyzes the hierarchy,the functionality,and the structure in the visual and auditory sensations of co... Cross-modal semantic mapping and cross-media retrieval are key problems of the multimedia search engine.This study analyzes the hierarchy,the functionality,and the structure in the visual and auditory sensations of cognitive system,and establishes a brain-like cross-modal semantic mapping framework based on cognitive computing of visual and auditory sensations.The mechanism of visual-auditory multisensory integration,selective attention in thalamo-cortical,emotional control in limbic system and the memory-enhancing in hippocampal were considered in the framework.Then,the algorithms of cross-modal semantic mapping were given.Experimental results show that the framework can be effectively applied to the cross-modal semantic mapping,and also provides an important significance for brain-like computing of non-von Neumann structure. 展开更多
关键词 multimedia neural cognitive computing (MNCC) brain-like computing cross-modal semantic mapping (CSM) selective attention limbic system multisensory integration memory-enhancing mechanism
下载PDF
Social network search based on semantic analysis and learning 被引量:12
3
作者 Feifei Kou Junping Du +1 位作者 Yijiang He Lingfei Ye 《CAAI Transactions on Intelligence Technology》 2016年第4期293-302,共10页
Because of everyone's involvement in social networks, social networks are full of massive multimedia data, and events are got released and disseminated through social networks in the form of multi-modal and multi-att... Because of everyone's involvement in social networks, social networks are full of massive multimedia data, and events are got released and disseminated through social networks in the form of multi-modal and multi-attribute heterogeneous data. There have been numerous researches on social network search. Considering the spatio-temporal feature of messages and social relationships among users, we summarized an overall social network search framework from the perspective of semantics based on existing researches. For social network search, the acquisition and representation of spatio-temporal data is the basis, the semantic analysis and modeling of social network cross-media big data is an important component, deep semantic learning of social networks is the key research field, and the indexing and ranking mechanism is the indispensable part. This paper reviews the current studies in these fields, and then main challenges of social network search are given. Finally, we give an outlook to the prospect and further work of social network search. 展开更多
关键词 semantic analysis semantic learning cross-modal Social network search
下载PDF
Exploiting multi-context analysis in semantic image classification
4
作者 田永鸿 黄铁军 高文 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第11期1268-1283,共16页
As the popularity of digital images is rapidly increasing on the Internet, research on technologies for semantic image classification has become an important research topic. However, the well-known content-based image... As the popularity of digital images is rapidly increasing on the Internet, research on technologies for semantic image classification has become an important research topic. However, the well-known content-based image classification methods do not overcome the so-called semantic gap problem in which low-level visual features cannot represent the high-level semantic content of images. Image classification using visual and textual information often performs poorly since the extracted textual features are often too limited to accurately represent the images. In this paper, we propose a semantic image classification ap- proach using multi-context analysis. For a given image, we model the relevant textual information as its multi-modal context, and regard the related images connected by hyperlinks as its link context. Two kinds of context analysis models, i.e., cross-modal correlation analysis and link-based correlation model, are used to capture the correlation among different modals of features and the topical dependency among images induced by the link structure. We propose a new collective classification model called relational support vector classifier (RSVC) based on the well-known Support Vector Machines (SVMs) and the link-based cor- relation model. Experiments showed that the proposed approach significantly improved classification accuracy over that of SVM classifiers using visual and/or textual features. 展开更多
关键词 Image classification Multi-context analysis cross-modal correlation analysis Link-based correlation model Linkage semantic kernels Relational support vector classifier
下载PDF
组织战略匹配管理中的语义建模方法研究综述
5
作者 王涛 林木 +3 位作者 李小波 朱智 朱一凡 王维平 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3383-3397,共15页
战略匹配是战略规划的一个子内容,侧重于检查战略规划与战略行动的一致性。通过战略匹配,组织的项目、计划或个人的计划与组织的长期业务目标保持一致。主要从语义建模角度阐述了这一领域的最新发展。为了引出这一关键技术领域对于组织... 战略匹配是战略规划的一个子内容,侧重于检查战略规划与战略行动的一致性。通过战略匹配,组织的项目、计划或个人的计划与组织的长期业务目标保持一致。主要从语义建模角度阐述了这一领域的最新发展。为了引出这一关键技术领域对于组织战略匹配的重要性,首先讨论战略匹配的基本概念及其发展,特别是通过核心要素分析军事组织战略匹配问题的特征,有助于理解大型组织战略匹配问题的复杂性。然后,分析现有语义建模的主要方法,受限于当时的技术发展水平,这些方法仍有许多缺陷和不足,当前的语义技术应用也有一大部分是为解决这些遗留问题而产生。最后,总结战略匹配管理中的语义技术应用,希望为该领域技术的后续发展提供参考。 展开更多
关键词 战略匹配 组织 企业架构 概念建模 语义建模 本体
下载PDF
基于分层特征对齐网络的小样本马铃薯病害叶片检测 被引量:1
6
作者 牛玉霞 孙宙红 +2 位作者 任伟 陈林琳 陈莉莉 《中国农机化学报》 北大核心 2024年第2期250-258,共9页
针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支... 针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支持分支中建立文本语义和视觉语义的多模态双层特征语义表示,并利用预训练网络生成多个候选框。再次,利用卷积神经网络将候选框区域映射到深度特征空间,并借助无参数的度量方法实现文本语义与视觉语义的特征对齐。最后,将查询分支中的未知类病害图片与多模态视觉和文本语义关联集进行度量计算,根据相似度值快速给出待测图片中未知新类的病害类别。通过在自建的马铃薯病害叶片数据集和开源数据集上进行测试,所提出模型分别可以实现93.55%和96.35%的识别精度,在跨域数据集上可以实现95.15%和94.06%的识别精度,优于当前经典的目标检测模型,具有一定的实际应用价值。 展开更多
关键词 马铃薯病害 叶片检测 分层特征对齐网络 文本语义 视觉语义
下载PDF
融合注意力机制的DeeplabV3+服装图像分割方法
7
作者 肖雅慧 张自力 +2 位作者 胡新荣 彭涛 张俊 《计算机科学》 CSCD 北大核心 2024年第S01期581-587,共7页
针对在服装图像语义分割中存在由服装颜色、纹理、背景以及多目标遮挡导致的边缘分割粗糙和分割精度低等问题,文中基于Deeplabv3+框架,提出了一种图像语义分割算法(FFDNet)。首先,模型的骨干网络采用ResNet101网络,并添加通道空间注意... 针对在服装图像语义分割中存在由服装颜色、纹理、背景以及多目标遮挡导致的边缘分割粗糙和分割精度低等问题,文中基于Deeplabv3+框架,提出了一种图像语义分割算法(FFDNet)。首先,模型的骨干网络采用ResNet101网络,并添加通道空间注意力模块(Feature-Enhanced Attention Module,FEAM),通过对特征图加权来挖掘并增强特征信息,提高网络表达能力。其次引入特征对齐模块(Feature Align Module,FAM)作为一种新的上采样方式,解决不同尺度特征融合之间特征未对齐导致分割错误且效率低的问题,以此提高对服装图像分割的准确性和鲁棒性。最后,FFDNet在Deepfashion2和PASCAL VOC 2012数据集上的平均交并比分别达到55.2%和79.4%;在参数量方面,该模型相比原模型在Deepfashion2上仅增加了0.61 MB。与其他现有经典模型对比,其分割性能更优,能有效捕获图像局部细节信息,减少像素分类错误。 展开更多
关键词 服装图像 语义分割 注意力机制 Deeplabv3+网络 特征对齐
下载PDF
基于图文细粒度对齐语义引导的多模态神经机器翻译方法
8
作者 叶俊杰 郭军军 +2 位作者 谭凯文 相艳 余正涛 《中文信息学报》 CSCD 北大核心 2024年第10期24-34,共11页
多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,... 多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,该方法首先采用跨模态交互图文信息,以提取图文细粒度对齐语义信息,然后以图文细粒度对齐语义信息为枢纽,采用门控机制将多模态细粒度信息对齐到文本信息上,实现图文多模态特征融合。在多模态机器翻译基准数据集Multi30K英语到德语、英语到法语以及英语到捷克语翻译任务上的实验结果表明,该文提出的方法是有效的,并且优于大多数先进的多模态机器翻译方法。 展开更多
关键词 多模态神经机器翻译 图文细粒度 语义交互 对齐语义
下载PDF
基于多模态对齐融合的车厢部件语义分割算法
9
作者 赵梓云 高晓蓉 罗林 《现代电子技术》 北大核心 2024年第16期150-156,共7页
车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对... 车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对各种实际复杂场景,会出现分割不连续、边缘轮廓不清晰的问题。为此,提出一种基于多模态数据对齐融合的语义分割算法,额外引入车厢深度图来补充普通图像中缺失的几何特征信息,再将两种模态的特征对齐后作为互补的特征融合学习,最终达到准确分割部件的目的。通过车厢部件的RGBD语义分割数据集的建立,对所提算法在实际应用场景下的效果进行验证,得到97.2%的召回率以及87.4%的平均交并比。同时,所设计模型在NYUDV2数据集上达到了53.5%的平均交并比,与同类型算法相比处于先进水平。这些结果表明,所提算法在有挑战性的车厢部件分割任务中,可以达到良好的分割效果,也具有较好的泛化性,有助于提升车厢部件检测的自动化水平,减轻人工压力。 展开更多
关键词 RGBD语义分割 车厢部件 多模态特征融合 特征对齐 螺栓 管线 注意力机制
下载PDF
基于节点语义相似度的本体映射方法 被引量:1
10
作者 何杰 王佳蓉 王恒恒 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期399-409,共11页
针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映... 针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映射等关键技术;其次,以本体对齐评估倡议评估数据集中会议本体集进行实验,结果表明,该方法在性能上优于传统映射方法,在精度上高于基于片段的映射方法. 展开更多
关键词 语义相似度 本体映射 本体分块 本体对齐估计倡议 精度 效率
下载PDF
融合全局语义的CLIP-GPT图像描述模型
11
作者 陶锐 任洪娥 曹海燕 《哈尔滨理工大学学报》 CAS 北大核心 2024年第2期16-24,共9页
图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时,跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自... 图像描述是指为图像自动生成与其内容相符的语言描述。桥接计算机视觉和自然语言处理两个领域的预训练模型构建图像描述模型时,跨模态语义一致性是共享子空间嵌入的核心问题。本文将图像拆分成若干片作为视觉语义单元与语言特征进行自由的跨模态关联,突破了有限视觉特征分类的限制;联合运用掩码学习和图文特征匹配两个损失函数,挑选高难度负样本训练跨模态跳接网络提取一致性全局语义,提高了子空间邻域内高相似度图文特征点匹配的准确度。在MS COCO和Flickr30k两个数据集上的实验结果表明,与同样采用CLIP+GPT生成图像描述的模型及其他主流模型相比,性能均有提升,证明了所提出模型的有效性。 展开更多
关键词 跨模态 图像描述 预训练模型 共享子空间 语义对齐
下载PDF
模态间关系促进的行人检索方法
12
作者 李博 张飞飞 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页
基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要... 基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要挑战在于该任务结合了视觉内容和文本描述两种不同模态的数据,要求模型同时具有图像理解能力和文本语义学习能力.为了缩小行人图像和文本描述的模态间语义鸿沟,传统的基于文本描述的行人检索方法多是对提取的图像和文本特征进行机械地分割,只关注于跨模态信息的语义对齐,忽略了图像和文本模态内部的潜在联系,导致模态间细粒度匹配的不准确.为了解决上述问题,提出模态间关系促进的行人检索方法,首先利用注意力机制分别构建模态内自注意力矩阵和跨模态注意力矩阵,并将注意力矩阵看作不同特征序列间的响应值分布.然后,分别使用两种不同的矩阵构建方法重构模态内自注意力矩阵和跨模态注意力矩阵.其中自注意力矩阵的重构利用模态内逐元素重构的方式可以很好地挖掘模态内部的潜在联系,而跨模态注意力矩阵的重构用模态间整体重构矩阵的方法,以跨模态信息为桥梁,可充分挖掘模态间的潜在信息,缩小语义鸿沟.最后,用基于任务的跨模态投影匹配损失和KL散度损失联合约束模型优化,达到模态间信息相互促进的效果.在基于文本描述的行人检索公开数据库CUHK-PEDES上进行了定量以及检索结果的可视化,均表明所提方法可取得目前最优的效果. 展开更多
关键词 行人检索 跨模态任务 文本语义学习 关系对齐 注意力机制
下载PDF
基于改进UperNet的结球甘蓝叶球识别方法
13
作者 朱轶萍 吴华瑞 +1 位作者 郭旺 吴小燕 《智慧农业(中英文)》 CSCD 2024年第3期128-137,共10页
[目的/意义]叶球是结球甘蓝的重要部分,其生长发育对田间管理至关重要。针对叶球分割识别存在大田背景复杂、光照不均匀和叶片纹理相似等问题,提出一种语义分割算法UperNet-ESA,旨在能快速、准确地分割田间场景中结球甘蓝的外叶和叶球,... [目的/意义]叶球是结球甘蓝的重要部分,其生长发育对田间管理至关重要。针对叶球分割识别存在大田背景复杂、光照不均匀和叶片纹理相似等问题,提出一种语义分割算法UperNet-ESA,旨在能快速、准确地分割田间场景中结球甘蓝的外叶和叶球,以实现田间结球甘蓝的智能化管理。[方法]首先,采用统一感知解析网络(Unified Perceptual Parsing Network,UperNet)作为高效语义分割框架,将主干网络改为先进的ConvNeXt,使得模型在提升分割精度的同时也能具有较低的模型复杂度;其次,利用高效通道注意力机制(Efficient Channel Attention,ECA)融入特征提取网络的各阶段,进一步捕捉图像的细节信息;最后,通过将特征选择模块(Feature Selection Model,FSM)和特征对齐模块(Feature Alignment Model,FAM)集成到特征金字塔框架中,得到更为精确的目标边界预测结果。[结果和讨论]在自制结球甘蓝图像数据集上进行实验,与目前主流的UNet、PSPNet和DeeplabV3+语义分割模型相比,改进UperNet方法的平均交并比为92.45%,平均像素准确率为94.32%,推理速度为16.6 f/s,能够达到最佳精度-速度平衡效果。[结论]研究成果可为结球甘蓝生长智能化监测提供理论参考,对甘蓝产业发展具有重要的应用前景。 展开更多
关键词 结球甘蓝 语义分割 叶球识别 注意力机制 特征选择 特征对齐
下载PDF
基于语义对齐和层次优化的非机动车车牌识别定位方法
14
作者 谭若琦 董明刚 +1 位作者 赵唯肖 武天昊 《计算机工程》 CAS CSCD 北大核心 2024年第11期142-151,共10页
对非机动车违规行为依法追究责任是提高城市交通安全的有效手段。由于非机动车车牌具有尺寸小、分布密集、易遮挡等特点,导致应用传统的深度学习方法会出现特征信息大量丢失的现象。为此,提出一种基于语义对齐和层次优化的非机动车车牌... 对非机动车违规行为依法追究责任是提高城市交通安全的有效手段。由于非机动车车牌具有尺寸小、分布密集、易遮挡等特点,导致应用传统的深度学习方法会出现特征信息大量丢失的现象。为此,提出一种基于语义对齐和层次优化的非机动车车牌识别定位方法。首先设计底层信息融合的语义对齐模块,在上采样过程中利用底层目标信息引导高层语义向下融合,以解决高底层语义冲突带来的小目标特征丢失问题;然后构建CSP结构的层次优化模块替代深层ELAN模块,使用堆叠少量卷积核模块提取目标信息以减少网络层数,避免特征信息在深层丢失;最后,为减少训练过程中的匹配误差,使用K-Means++算法聚类得到适合非机动车车牌的初始锚框,提高小目标识别定位准确率。实验结果表明,所提方法在自制非机动车车牌数据集上的识别定位准确率为90.95%,与YOLOv7、YOLOv8等代表性方法相比至少提升3.58%,为非机动车车牌识别定位提供了一种有效的方法。 展开更多
关键词 小目标检测 非机动车车牌 语义对齐 层次优化 K-Means++算法
下载PDF
基于目标对齐和语义过滤的多模态情感分析
15
作者 欧阳梦妮 樊小超 帕力旦·吐尔逊 《计算机技术与发展》 2024年第10期171-177,共7页
近年来许多研究工作利用注意力机制捕捉意见目标相应的视觉表征进行情感预测,但这种方法在细粒度意见目标对齐方面效果并不理想。为此,提出一种基于目标对齐和语义过滤的多模态情感分析方法。首先,引入目标识别方法Deepface获取图像的... 近年来许多研究工作利用注意力机制捕捉意见目标相应的视觉表征进行情感预测,但这种方法在细粒度意见目标对齐方面效果并不理想。为此,提出一种基于目标对齐和语义过滤的多模态情感分析方法。首先,引入目标识别方法Deepface获取图像的粗粒度意见目标,并使用映射方法,将粗粒度意见目标映射到细粒度意见目标,实现模态内的目标对齐。其次,利用Deepface获取粗粒度意见目标的情绪词并将其和视觉表征融合,使模型更准确地理解和表示意见目标的情感倾向。最后,引入图文匹配模型CLIP来评估图像与意见目标之间的语义关联性,从而过滤多余的视觉模态数据噪声。实验表明,提出的意见目标对齐和语义过滤能更好地利用视觉模态信息,提高情感预测的准确性。 展开更多
关键词 方面级情感分析 目标对齐 语义过滤 噪声 多模态
下载PDF
基于机器视觉的岩块自动化识别检测方法
16
作者 薛山 段岳飞 +1 位作者 胡天亮 马嵩华 《中国矿业》 北大核心 2024年第6期129-136,共8页
在隧道施工过程中,岩体参数的获取是实现隧道掘进机参数调整和智能决策的前提,因此,要对掘进过程中获得的岩块进行采样和检测,而岩块识别和检测目前主要由人工完成。本文针对岩块的自动化识别和检测问题,提出了一种基于机器视觉的岩块... 在隧道施工过程中,岩体参数的获取是实现隧道掘进机参数调整和智能决策的前提,因此,要对掘进过程中获得的岩块进行采样和检测,而岩块识别和检测目前主要由人工完成。本文针对岩块的自动化识别和检测问题,提出了一种基于机器视觉的岩块自动化识别检测方法,通过融合岩块区域检测和语义分割算法能够快速准确获取岩块的形心坐标和过形心最小直径。首先,使用YOLOv3网络对岩块进行识别,实现岩块的区域检测。其次,针对每个区域的岩块采用FCN-DenseNet网络进行语义分割和图像处理,并对全卷积神经网络进行改进,减少了语义分割模型的参数量,提高了语义分割效率,提升了岩块轮廓获取的精度和速度。最后,根据获得的岩块轮廓点,计算其形心坐标及过形心的最小直径,为机械臂抓取和岩块点荷载强度的计算提供支持。搭建实验平台,完成机械臂手眼标定和深度相机坐标下岩块图像与岩块点云对齐,获取岩块形心坐标在机械臂坐标下的位置。实验结果表明,本文所提算法能够快速准确地获取岩块的形位参数,对10次实验中的102块岩块识别检测成功率为91.18%,在所有完成识别检测岩块中的吸取成功率为92.47%,可以应用于岩体的自动化检测,提高岩体检测的效率和智能化水平。 展开更多
关键词 岩块识别 区域检测 语义分割 岩块定位 点云对齐
下载PDF
基于互学习和促进分割的RGB-D显著性目标检测
17
作者 夏晨星 王晶晶 葛斌 《通化师范学院学报》 2024年第6期52-58,共7页
RGB-D显著性目标检测主要通过融合RGB图像和深度图(Depth)从给定场景中分割最显著的对象.由于受到原始深度图固有噪声的影响,会导致模型在检测过程中拟入错误的信息.为了改善检测效果,该文提出了一种基于互学习和促进分割的RGB-D显著性... RGB-D显著性目标检测主要通过融合RGB图像和深度图(Depth)从给定场景中分割最显著的对象.由于受到原始深度图固有噪声的影响,会导致模型在检测过程中拟入错误的信息.为了改善检测效果,该文提出了一种基于互学习和促进分割的RGB-D显著性目标检测模型,设计一个深度优化模块来获取深度图和预测深度图之间最优的深度信息;引入特征对齐模块和跨模态集成模块完成跨模态的融合;针对分割造成的精度损失问题,构建了一个基于多源特征集成机制的分离重构解码器.在5个公开数据集上进行了实验测试,实验结果表明:所提模型与其他模型相比,准确率更高,网络更加稳定. 展开更多
关键词 RGB-D显著性目标检测 互学习 特征对齐 跨模态集成
下载PDF
Audio-Text Multimodal Speech Recognition via Dual-Tower Architecture for Mandarin Air Traffic Control Communications
18
作者 Shuting Ge Jin Ren +3 位作者 Yihua Shi Yujun Zhang Shunzhi Yang Jinfeng Yang 《Computers, Materials & Continua》 SCIE EI 2024年第3期3215-3245,共31页
In air traffic control communications (ATCC), misunderstandings between pilots and controllers could result in fatal aviation accidents. Fortunately, advanced automatic speech recognition technology has emerged as a p... In air traffic control communications (ATCC), misunderstandings between pilots and controllers could result in fatal aviation accidents. Fortunately, advanced automatic speech recognition technology has emerged as a promising means of preventing miscommunications and enhancing aviation safety. However, most existing speech recognition methods merely incorporate external language models on the decoder side, leading to insufficient semantic alignment between speech and text modalities during the encoding phase. Furthermore, it is challenging to model acoustic context dependencies over long distances due to the longer speech sequences than text, especially for the extended ATCC data. To address these issues, we propose a speech-text multimodal dual-tower architecture for speech recognition. It employs cross-modal interactions to achieve close semantic alignment during the encoding stage and strengthen its capabilities in modeling auditory long-distance context dependencies. In addition, a two-stage training strategy is elaborately devised to derive semantics-aware acoustic representations effectively. The first stage focuses on pre-training the speech-text multimodal encoding module to enhance inter-modal semantic alignment and aural long-distance context dependencies. The second stage fine-tunes the entire network to bridge the input modality variation gap between the training and inference phases and boost generalization performance. Extensive experiments demonstrate the effectiveness of the proposed speech-text multimodal speech recognition method on the ATCC and AISHELL-1 datasets. It reduces the character error rate to 6.54% and 8.73%, respectively, and exhibits substantial performance gains of 28.76% and 23.82% compared with the best baseline model. The case studies indicate that the obtained semantics-aware acoustic representations aid in accurately recognizing terms with similar pronunciations but distinctive semantics. The research provides a novel modeling paradigm for semantics-aware speech recognition in air traffic control communications, which could contribute to the advancement of intelligent and efficient aviation safety management. 展开更多
关键词 Speech-text multimodal automatic speech recognition semantic alignment air traffic control communications dual-tower architecture
下载PDF
International Healthcare Terminologies for Morbidity New Era: SNOMED and ICD11
19
作者 Jean Marie Rodrigues Constant Kone +1 位作者 Michel Babri Béatrice Trombert 《Journal of Biosciences and Medicines》 2024年第8期357-368,共12页
The Information Technology (IT) developments have changed the use of Healthcare terminologies from paper-based mortality statistics with the WHO international classifications of diseases (ICD) to the IT-based morbidit... The Information Technology (IT) developments have changed the use of Healthcare terminologies from paper-based mortality statistics with the WHO international classifications of diseases (ICD) to the IT-based morbidity implementations for instance for Casemix-based healthcare funding and managing systems. This higher level of granularity is worldwide spread under the umbrella of several national modifications named ICD10 XM. These developments have met the increased use of the International Clinical Reference Terminology named SNOMED. When the updating of WHO ICD10 to WHO ICD11 was decided a merging was envisaged and a WHO SNOMED CT common work proposed a methodology to create a common formal ontology between the 11th version of the WHO International Classification of Diseases and Health Problems (ICD) and the most used in the world clinical terminology named Systematized Nomenclature of Human and Veterinary Medicine - Clinical Terms (SCT). The present work follows this unachieved work and aims to develop a SNOMED-based formal ontology for ICD11 chapter 1 using the textual definitions of ICD11 codes which is a completely new character of ICD and the ontology tools provided by SCT in the publicly available SNOMED Browser. There are two key results: the lexical alignment is complete and the ontology alignment is incomplete with the validated SNOMED concept model can be completed with not yet validated attributes and values of the SNOMED Compositional Grammar. The work opens a new era for the seamless use of both international terminologies for morbidity for instance for DRG/Casemix and clinical management use. The main limitation is that it is restricted to 1 out of 26 chapters of ICD11. 展开更多
关键词 Lexical alignment semantic Interoperability Ontology SNOMED Concept Model ICD-11 SNOMED CT
下载PDF
基于图像风格对抗和二重类别优化的夜间图像语义分割
20
作者 周华平 李美光 《湖北民族大学学报(自然科学版)》 CAS 2024年第1期69-74,共6页
为解决目前夜间图像语义分割中存在的语义信息传递丢失和不重视小频率类别问题,提出了基于图像风格对抗和二重类别优化网络架构(image style confrontation and two-category optimization network architecture,ITA)模型。首先,采用了... 为解决目前夜间图像语义分割中存在的语义信息传递丢失和不重视小频率类别问题,提出了基于图像风格对抗和二重类别优化网络架构(image style confrontation and two-category optimization network architecture,ITA)模型。首先,采用了对抗学习的架构令图像共享信息得到高效利用,使得语义信息的传输更加完整。然后,采用了二重类别指导策略(two-way category guidance,TCG)重新分配类别权重,引导模型更加关注小频率类别。最后,在黑暗苏黎世数据集上进行实验,平均交并比(mean intersection over union,MIoU)提高到了60.1%。另外,通过消融实验证明了每个模块的有效性。ITA模型能够较为准确地分割夜间道路图像,可供夜间自动驾驶任务借鉴。 展开更多
关键词 夜间图像 语义分割 对抗网络 域自适应 图像对齐 数据平衡 风格转换
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部