SimCSE框架仅使用分类令牌[CLS]token作为文本向量,同时忽略基座模型内层级信息,导致对基座模型输出语义特征提取不充分.本文基于SimCSE框架提出一种融合预训练模型层级特征方法SimCSE-HFF(SimCSE with hierarchical feature fusion,Sim...SimCSE框架仅使用分类令牌[CLS]token作为文本向量,同时忽略基座模型内层级信息,导致对基座模型输出语义特征提取不充分.本文基于SimCSE框架提出一种融合预训练模型层级特征方法SimCSE-HFF(SimCSE with hierarchical feature fusion,SimCSE-HFF).SimCSE-HFF基于双路并行网络,使用短路径和长路径强化特征学习,短路径使用卷积神经网络学习文本局部特征并进行降维,长路径使用双向门控循环神经网络学习深度语义信息,同时在长路径中利用自编码器融合基座模型内部其他层特征,解决模型对输出特征提取不充分的问题.在STS-B的中文与英文数据集上,SimCSE-HFF方法效果在语义相似度Spearman和Pearson相关性指标上优于传统方法,在不同预训练模型上均得到提升;在下游任务检索问答上也优于SimCSE框架,具有更优秀的通用性.展开更多
文摘SimCSE框架仅使用分类令牌[CLS]token作为文本向量,同时忽略基座模型内层级信息,导致对基座模型输出语义特征提取不充分.本文基于SimCSE框架提出一种融合预训练模型层级特征方法SimCSE-HFF(SimCSE with hierarchical feature fusion,SimCSE-HFF).SimCSE-HFF基于双路并行网络,使用短路径和长路径强化特征学习,短路径使用卷积神经网络学习文本局部特征并进行降维,长路径使用双向门控循环神经网络学习深度语义信息,同时在长路径中利用自编码器融合基座模型内部其他层特征,解决模型对输出特征提取不充分的问题.在STS-B的中文与英文数据集上,SimCSE-HFF方法效果在语义相似度Spearman和Pearson相关性指标上优于传统方法,在不同预训练模型上均得到提升;在下游任务检索问答上也优于SimCSE框架,具有更优秀的通用性.