意图识别与语义槽填充联合建模正成为口语理解(Spoken Language Understanding,SLU)的新趋势。但是,现有的联合模型只是简单地将两个任务进行关联,建立了两任务间的单向联系,未充分利用两任务之间的关联关系。考虑到意图识别与语义槽填...意图识别与语义槽填充联合建模正成为口语理解(Spoken Language Understanding,SLU)的新趋势。但是,现有的联合模型只是简单地将两个任务进行关联,建立了两任务间的单向联系,未充分利用两任务之间的关联关系。考虑到意图识别与语义槽填充的双向关联关系可以使两任务相互促进,提出了一种基于门控机制的双向关联模型(BiAss-Gate),将两个任务的上下文信息进行融合,深度挖掘意图识别与语义槽填充之间的联系,从而优化口语理解的整体性能。实验表明,所提模型BiAss-Gate在ATIS和Snips数据集上,语义槽填充F1值最高达95.8%,意图识别准确率最高达98.29%,对比其他模型性能得到了显著提升。展开更多
目前基于深度学习的端到端对话系统因具有泛化能力强、训练参数少、性能好等优势,在学术界和工业界成为了研究热点。意图识别和语义槽填充的结果对于对话系统的性能至关重要。介绍了端到端任务型对话系统意图和语义槽联合识别的主流方法...目前基于深度学习的端到端对话系统因具有泛化能力强、训练参数少、性能好等优势,在学术界和工业界成为了研究热点。意图识别和语义槽填充的结果对于对话系统的性能至关重要。介绍了端到端任务型对话系统意图和语义槽联合识别的主流方法,对注意力机制、Transformer模型在捕获长期依赖关系方面的效果同循环神经网络、长短时记忆网络进行对比,并分析了因其并行处理导致无法对文本词序位置信息完整捕获的局限;阐述了胶囊网络相较于卷积神经网络在捕获小概率语义信息保证特征完整性方面的优势;重点介绍了基于BERT(Bidirectional Encoder Representations from Transformers)模型的联合识别方法,不仅能够并行处理而且可以解决一词多义的问题,是目前性能最好的方法。最后对未来研究的发展方向进行讨论和分析。展开更多
语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量。...语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量。但是,随机词向量存在不具备语义和语法信息的缺点;预训练词向量存在“一词一义”的缺点,无法为模型提供具备上下文依赖的词向量。针对该问题,提出了一种基于预训练模型BERT和长短期记忆网络的深度学习模型。该模型使用基于Transformer的双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)产生具备上下文依赖的词向量,并将其作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入,最后利用Softmax函数和条件随机场进行解码。将预训练模型BERT和BiLSTM网络作为整体进行训练,达到了提升语义槽填充任务性能的目的。在MIT Restaurant Corpus,MIT Movie Corpus和MIT Movie trivial Corpus 3个数据集上,所提模型得出了良好的结果,最大F1值分别为78.74%,87.60%和71.54%。实验结果表明,所提模型显著提升了语义槽填充任务的F1值。展开更多
文摘意图识别与语义槽填充联合建模正成为口语理解(Spoken Language Understanding,SLU)的新趋势。但是,现有的联合模型只是简单地将两个任务进行关联,建立了两任务间的单向联系,未充分利用两任务之间的关联关系。考虑到意图识别与语义槽填充的双向关联关系可以使两任务相互促进,提出了一种基于门控机制的双向关联模型(BiAss-Gate),将两个任务的上下文信息进行融合,深度挖掘意图识别与语义槽填充之间的联系,从而优化口语理解的整体性能。实验表明,所提模型BiAss-Gate在ATIS和Snips数据集上,语义槽填充F1值最高达95.8%,意图识别准确率最高达98.29%,对比其他模型性能得到了显著提升。
文摘目前基于深度学习的端到端对话系统因具有泛化能力强、训练参数少、性能好等优势,在学术界和工业界成为了研究热点。意图识别和语义槽填充的结果对于对话系统的性能至关重要。介绍了端到端任务型对话系统意图和语义槽联合识别的主流方法,对注意力机制、Transformer模型在捕获长期依赖关系方面的效果同循环神经网络、长短时记忆网络进行对比,并分析了因其并行处理导致无法对文本词序位置信息完整捕获的局限;阐述了胶囊网络相较于卷积神经网络在捕获小概率语义信息保证特征完整性方面的优势;重点介绍了基于BERT(Bidirectional Encoder Representations from Transformers)模型的联合识别方法,不仅能够并行处理而且可以解决一词多义的问题,是目前性能最好的方法。最后对未来研究的发展方向进行讨论和分析。
文摘语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量。但是,随机词向量存在不具备语义和语法信息的缺点;预训练词向量存在“一词一义”的缺点,无法为模型提供具备上下文依赖的词向量。针对该问题,提出了一种基于预训练模型BERT和长短期记忆网络的深度学习模型。该模型使用基于Transformer的双向编码表征模型(Bidirectional Encoder Representations from Transformers,BERT)产生具备上下文依赖的词向量,并将其作为双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入,最后利用Softmax函数和条件随机场进行解码。将预训练模型BERT和BiLSTM网络作为整体进行训练,达到了提升语义槽填充任务性能的目的。在MIT Restaurant Corpus,MIT Movie Corpus和MIT Movie trivial Corpus 3个数据集上,所提模型得出了良好的结果,最大F1值分别为78.74%,87.60%和71.54%。实验结果表明,所提模型显著提升了语义槽填充任务的F1值。