期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
融合动态掩码注意力与多教师多特征知识蒸馏的文本分类
1
作者 王润周 张新生 王明虎 《中文信息学报》 CSCD 北大核心 2024年第3期113-129,共17页
知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此... 知识蒸馏技术可以将大规模模型中的知识压缩到轻量化的模型中,在文本分类任务中实现更高效的推断。现有的知识蒸馏方法较少同时考虑多种教师与多个特征层之间的信息融合。此外,蒸馏过程采用全局填充,未能动态关注数据中的有效信息。为此,该文提出一种融合动态掩码注意力机制与多教师多特征知识蒸馏的文本分类模型,不仅引入多种教师模型(RoBERTa、Electra)的知识源,还兼顾不同教师模型在多个特征层的语义信息,并通过设置动态掩码模型注意力机制使得蒸馏过程动态关注不等长数据,减少无用填充信息的干扰。在4种公开数据集上的实验结果表明,经过蒸馏后的学生模型(TinyBRET)在预测性能上均优于其他基准蒸馏策略,并在采用教师模型1/10的参数量、约1/2的平均运行时间的条件下,取得与两种教师模型相当的分类结果,平均准确率仅下降4.18%和3.33%,平均F 1值仅下降2.30%和2.38%。其注意力热度图也表明动态掩码注意力机制切实加强关注了数据尾部与上下文信息。 展开更多
关键词 动态掩码注意力 多教师多特征 知识蒸馏 文本分类
下载PDF
基于双向掩码注意力机制的多模态情感分析 被引量:2
2
作者 张昱 张海军 +2 位作者 刘雅情 梁科晋 王月阳 《数据分析与知识发现》 CSCD 北大核心 2023年第4期46-55,共10页
【目的】为充分利用多模态信息,实现更有效的模态间交互,本文提出一种基于双向掩码注意力机制的多模态情感分析模型BMAM。【方法】该模型同时建模文本和语音两个模态,对于每个模态,掩码注意力通过引入另一个模态的信息来动态调整当前模... 【目的】为充分利用多模态信息,实现更有效的模态间交互,本文提出一种基于双向掩码注意力机制的多模态情感分析模型BMAM。【方法】该模型同时建模文本和语音两个模态,对于每个模态,掩码注意力通过引入另一个模态的信息来动态调整当前模态的注意力权值,从而获取更精准的模态表示。这些模态表示既保留了模态固有的独特性,又减少了与另一个模态的差异性,帮助模型实现最佳的情感决策。【结果】在通用的多模态情感分析数据集IEMOCAP上对模型进行评估验证,模型的情感分析加权准确率达到74.1%,相较于现有主流方法有明显提升。【局限】模型对数据集中占比较大的Neutral、Anger这两个情感类别有较高的识别效果,而对数据集中占比较小的Happy、Sad情感类别的识别性能较差。【结论】本文模型能有效利用多模态间的相互作用以合理调整模态自身情感元素间的注意力权重,实现更有效的情感决策。 展开更多
关键词 多模态 情感分析 模态间交互 双向掩码注意力
原文传递
基于方向感知与注意力的文档图像阴影消除
3
作者 张豹 蔡志伟 +1 位作者 王存睿 战国栋 《大连民族大学学报》 CAS 2024年第3期233-239,247,共8页
文档图像易受光照影响产生的阴影区域,会严重影响用户的识别和阅读。针对现有阴影消除开放数据集少,纠正图像阴影消除质量较差的问题,提出了一种改进的生成对抗网络的文档图像阴影消除方法。该网络在原有双GAN网络结构基础上,引入阴影... 文档图像易受光照影响产生的阴影区域,会严重影响用户的识别和阅读。针对现有阴影消除开放数据集少,纠正图像阴影消除质量较差的问题,提出了一种改进的生成对抗网络的文档图像阴影消除方法。该网络在原有双GAN网络结构基础上,引入阴影感知方向上下文模块以及掩码注意力结构,并在掩码注意力模块后加入自适应注意力模块,通过并行结构自适应调整卷积核大小,融合不同尺度特征以获得更多特征信息。同时采用一种逐像素叠加的数据增强方法,解决文档阴影消除数据集缺乏的问题。实验结果表明在本文自建数据集上与DCGAN、ST-CGAN和DSC方法相比,评价指标PSNR与SSIM均有一定提升,本文实验方法优于现有文档去阴影先进方法。 展开更多
关键词 文档图像阴影消除 堆叠式 阴影方向感知上下文 掩码注意力
下载PDF
基于掩码时间注意力和置信度损失函数的序列数据早期分类方法
4
作者 陈慧玲 张晔 +1 位作者 田奥升 赵晗馨 《智能计算机与应用》 2023年第7期27-32,共6页
序列数据的早期分类对于高时效性应用具有重要意义。该任务的目标是在满足预期分类精度的前提下,尽快地对持续输入的时间序列进行分类。目前,深度学习已经在序列数据早期分类任务中得到了广泛应用。现有的深度方法通常利用递归神经网络... 序列数据的早期分类对于高时效性应用具有重要意义。该任务的目标是在满足预期分类精度的前提下,尽快地对持续输入的时间序列进行分类。目前,深度学习已经在序列数据早期分类任务中得到了广泛应用。现有的深度方法通常利用递归神经网络来适应流数据的长度变化,并通过设置分类概率阈值退出分类过程。然而这些方法忽视了流数据的关键识别区域随信息量的增加持续变化。为了解决该问题,本文提出了一种基于掩码时间注意力机制的时间卷积网络来动态关注关键识别区域。此外,考虑到正确类别的分类概率分数应随模型观察到更多数据单调不递减,本文设计了一个置信度损失函数惩罚不符合该条件的模型,进一步促使模型提取更有区分性的特征。在8个公开数据集的实验结果表明了所提方法优越的早期分类性能。 展开更多
关键词 序列数据早期分类 掩码时间注意力 置信度损失函数 时间卷积网络
下载PDF
基于关系的跨网络用户身份链接
5
作者 刘红 朱焱 李春平 《计算机工程与设计》 北大核心 2023年第6期1649-1655,共7页
为打破现存研究普遍以网络拓扑一致性假设为前提的限制,弱化锚节点数量和质量对链接任务的影响,提出一种基于跨网络语义表征的用户链接算法CSRMA(cross-network semantic representation link algorithm based on mask attention mechan... 为打破现存研究普遍以网络拓扑一致性假设为前提的限制,弱化锚节点数量和质量对链接任务的影响,提出一种基于跨网络语义表征的用户链接算法CSRMA(cross-network semantic representation link algorithm based on mask attention mechanism)。该算法框架包含3个模块:多视角采样与注意力机制相结合的跨网络表征模块、不同网络共性特征学习的语义空间映射模块、基于k-d树改进Gale-Shapley算法的用户身份精准链接模块。通过4个公开数据集上的实验验证了所提算法的有效性。与多个身份链接算法对比,CSRMA具有更高的精确率。 展开更多
关键词 用户身份链接 跨网络 用户关系 采样策略 共性特征 掩码注意力机制 精准链接
下载PDF
面向案件审判难度预测的神经网络模型研究 被引量:1
6
作者 王悦 王平辉 +3 位作者 许诺 陈龙 杨鹏 吴用 《计算机科学与探索》 CSCD 北大核心 2021年第12期2345-2352,共8页
审判难度预测(TDP)是指在给定案情描述文本的情况下,自动预测案件审判难易程度,其在司法智能化系统中具有广阔的应用前景。现阶段,案件审判难度预测工具严重依赖专家经验规则,存在较大偏差,相关的研究工作较少。针对此问题,将其归结为... 审判难度预测(TDP)是指在给定案情描述文本的情况下,自动预测案件审判难易程度,其在司法智能化系统中具有广阔的应用前景。现阶段,案件审判难度预测工具严重依赖专家经验规则,存在较大偏差,相关的研究工作较少。针对此问题,将其归结为自然语言处理中的文本分类问题,通过分析发现传统分类方法未考虑起诉状中审判要素间的结构独特性和逻辑依赖性,导致难以准确预测案件难易程度。为解决上述挑战,通过对起诉状的研究,结合案件繁简审判要素,提出一种新的神经网络模型MAT-TAN。具体地,该模型首先采用一种掩码注意力网络(MAT)对案情描述文本进行细粒度分析。其中的掩码机制扮演智能门控者的角色,起到聚焦审判要素特定位置的作用,结合自注意力机制,实现了对各审判要素全面、准确的特征提取。其次,提出一种拓扑关联网络(TAN)对要素间的司法逻辑依赖关系进行建模,并有效融合不同要素的特征,最终实现案件审判难度预测。在法院真实数据上的实验结果表明,与基准的文本分类方法相比,该模型宏平均F1值提升了0.036,在审判难度预测上具备较好的使用效果。 展开更多
关键词 审判难度预测(TDP) 审判要素 掩码注意力网络(MAT) 拓扑关联网络(TAN)
下载PDF
基于预训练语言模型的关键词感知问题生成 被引量:1
7
作者 于尊瑞 毛震东 +1 位作者 王泉 张勇东 《计算机工程》 CAS CSCD 北大核心 2022年第2期125-131,共7页
问题生成任务是指根据给定的文本段落和答案来自动生成对应的问题。针对现有问题生成方法存在的误差累积现象以及问题生成任务固有的"一对多"情况,提出一种带有关键词感知功能的问题生成方法。在预训练语言模型的基础上,实现... 问题生成任务是指根据给定的文本段落和答案来自动生成对应的问题。针对现有问题生成方法存在的误差累积现象以及问题生成任务固有的"一对多"情况,提出一种带有关键词感知功能的问题生成方法。在预训练语言模型的基础上,实现关键词分类模型与问题生成模型的网络结构设计。输入文本段落中蕴含关键词,为使所生成的问题中包含同样的关键词以保证问题与段落的语义一致性,利用关键词分类模型提取出文本段落中的关键词,将关键词与非关键词的区分特征融入问题生成模型的输入中,该特征作为问题生成过程的全局信息,用以消除问题生成模型仅依赖局部最优解的弊端,减少误差累积与"一对多"情况的发生。在SQuAD数据集上的实验结果表明,该方法能够提升问题生成的质量,其BLEU-4指标值可达24,优于带有复制机制、带有语义监督的问题生成模型,目前已经借助百度百科数据平台实现了大规模工业应用。 展开更多
关键词 问题生成 预训练语言模型 关键词分类 注意力掩码 嵌入向量
下载PDF
基于Transformer模型的神经机器翻译改进方法研究 被引量:1
8
作者 宫昀 《自动化与仪器仪表》 2023年第8期257-261,267,共6页
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译... 神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译对单词的表达形式、多头注意力层之间的联系以及句子中重点单词的关注度。研究利用WMT14ende数据集与IWSLT14de-en数据集进行对比实验,在两种数据集中,组合式神经机器翻译模型的BLEU得分相较于Transformer基线模型分别高出1.07、0.92;在长句翻译中,组合式神经机器翻译模型的BLEU评分达到33.56,并高出LSTM模型5.72。结果表明研究所提出机器翻译模型具有更好的翻译效果,为神经机器翻译的发展提供新的思路。 展开更多
关键词 机器翻译 Transformer模型 动态词向量嵌入 混合多头注意力 动态掩码注意力
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部