-
题名一种去注意力机制的动态多层语义感知机
被引量:1
- 1
-
-
作者
刘孝炎
唐焕玲
王育林
窦全胜
鲁明羽
-
机构
山东工商学院计算机科学与技术学院
山东省高等学校协同创新中心:未来智能计算
山东工商学院山东省高校智能信息处理重点实验室
大连海事大学信息科学技术学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2024年第2期588-594,共7页
-
基金
国家自然科学基金项目(61976124,61976125,62176140)。
-
文摘
Transformer在大规模数据集上取得了优异效果,但由于使用多头注意力使得模型过于复杂,且在小规模数据集上效果不理想.对于多头注意力替换的研究在图像处理领域已取得一些成果,但在自然语言处理领域还少有研究.为此,首先提出一种去注意力的多层语义感知机(multi-layer semantics perceptron,MSP)方法,其核心创新是使用token序列转换函数替换编码器中的多头注意力,降低模型复杂度,获得更好的语义表达;然后,提出一种动态深度控制框架(dynamic depth control framework,DDCF),优化模型深度,降低模型复杂度;最后,在MSP方法和DDCF的基础上,提出动态多层语义感知机(dynamic multi-layer semantics perceptron,DMSP)模型,在多种文本数据集上的对比实验结果表明,DMSP既能提升模型分类精度,又能有效降低模型复杂度,与Transformer比较,在模型深度相同的情况下,DMSP模型分类精度大幅提升,同时模型的参数量大幅降低.
-
关键词
特征表示
语义感知机
动态深度控制
TRANSFORMER
文本分类
-
Keywords
feature representation
semantics perceptron
dynamic depth control
Transformer
text categorization
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-