期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种去注意力机制的动态多层语义感知机 被引量:1
1
作者 刘孝炎 唐焕玲 +2 位作者 王育林 窦全胜 鲁明羽 《控制与决策》 EI CSCD 北大核心 2024年第2期588-594,共7页
Transformer在大规模数据集上取得了优异效果,但由于使用多头注意力使得模型过于复杂,且在小规模数据集上效果不理想.对于多头注意力替换的研究在图像处理领域已取得一些成果,但在自然语言处理领域还少有研究.为此,首先提出一种去注意... Transformer在大规模数据集上取得了优异效果,但由于使用多头注意力使得模型过于复杂,且在小规模数据集上效果不理想.对于多头注意力替换的研究在图像处理领域已取得一些成果,但在自然语言处理领域还少有研究.为此,首先提出一种去注意力的多层语义感知机(multi-layer semantics perceptron,MSP)方法,其核心创新是使用token序列转换函数替换编码器中的多头注意力,降低模型复杂度,获得更好的语义表达;然后,提出一种动态深度控制框架(dynamic depth control framework,DDCF),优化模型深度,降低模型复杂度;最后,在MSP方法和DDCF的基础上,提出动态多层语义感知机(dynamic multi-layer semantics perceptron,DMSP)模型,在多种文本数据集上的对比实验结果表明,DMSP既能提升模型分类精度,又能有效降低模型复杂度,与Transformer比较,在模型深度相同的情况下,DMSP模型分类精度大幅提升,同时模型的参数量大幅降低. 展开更多
关键词 特征表示 语义感知机 动态深度控制 TRANSFORMER 文本分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部