现有生成式文本摘要模型缺乏对关键词信息的关注,存在输入文本中关键信息丢失问题.因此,提出了一种基于关键词语义信息增强的指针生成网络(keyword semantic information enhancement pointer-generator networks,KSIE-PGN)模型.首先,...现有生成式文本摘要模型缺乏对关键词信息的关注,存在输入文本中关键信息丢失问题.因此,提出了一种基于关键词语义信息增强的指针生成网络(keyword semantic information enhancement pointer-generator networks,KSIE-PGN)模型.首先,构建了基于DistilBERT的关键词抽取模型(keywords selection method based on BERT,KSBERT).其次,提出了基于关键词掩码的覆盖机制,在使用覆盖机制时,保留解码过程中模型对关键词的持续关注.接着,KSIE-PGN模型在解码过程融合了多种关键词信息,包括关键词语义向量和关键词上下文向量,从而解决解码器丢失输入文本关键信息这一问题.在CNN/Daily Mail数据集上的实验结果表明KSIE-PGN模型能够较好地捕捉输入文本中的关键信息.展开更多
基于注意力机制的序列到序列模型在生成式摘要方法中得到广泛应用,并取得较好的表现。但现有模型方法生成的摘要普遍存在语义无关、句内重复和未登录词等问题。为了解决这些问题,在典型基于注意力机制的序列到序列模型基础上,提出了结...基于注意力机制的序列到序列模型在生成式摘要方法中得到广泛应用,并取得较好的表现。但现有模型方法生成的摘要普遍存在语义无关、句内重复和未登录词等问题。为了解决这些问题,在典型基于注意力机制的序列到序列模型基础上,提出了结合双注意力和指针覆盖机制的生成式文本摘要方法DAPC(Dual Attention and Pointer-Coverage based model)模型。组合局部注意力和卷积神经网络,提取输入文本的更高层次的语言特征;引入指针-生成网络来解决未登录词问题;使用覆盖机制解决模型生成摘要句内重复的问题。实验结果表明,模型在CNN/Daily Mail数据集中有较好的表现。展开更多
结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme informa...结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。展开更多
文摘现有生成式文本摘要模型缺乏对关键词信息的关注,存在输入文本中关键信息丢失问题.因此,提出了一种基于关键词语义信息增强的指针生成网络(keyword semantic information enhancement pointer-generator networks,KSIE-PGN)模型.首先,构建了基于DistilBERT的关键词抽取模型(keywords selection method based on BERT,KSBERT).其次,提出了基于关键词掩码的覆盖机制,在使用覆盖机制时,保留解码过程中模型对关键词的持续关注.接着,KSIE-PGN模型在解码过程融合了多种关键词信息,包括关键词语义向量和关键词上下文向量,从而解决解码器丢失输入文本关键信息这一问题.在CNN/Daily Mail数据集上的实验结果表明KSIE-PGN模型能够较好地捕捉输入文本中的关键信息.
文摘基于注意力机制的序列到序列模型在生成式摘要方法中得到广泛应用,并取得较好的表现。但现有模型方法生成的摘要普遍存在语义无关、句内重复和未登录词等问题。为了解决这些问题,在典型基于注意力机制的序列到序列模型基础上,提出了结合双注意力和指针覆盖机制的生成式文本摘要方法DAPC(Dual Attention and Pointer-Coverage based model)模型。组合局部注意力和卷积神经网络,提取输入文本的更高层次的语言特征;引入指针-生成网络来解决未登录词问题;使用覆盖机制解决模型生成摘要句内重复的问题。实验结果表明,模型在CNN/Daily Mail数据集中有较好的表现。
文摘结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。