为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byt...为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byte Cup 2018数据集对本文提出的英语标题自动生成算法进行实验,并通过过ROUGE-N指标对标题生成质量加以评价。实验研究发现,所提出的句子级LSTM编码方案在英文文本标题生成准确性方面相比于其他常规摘要生成模型来说具有显著优势。展开更多
【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记...【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks,Bi-LSTM)及多头注意力机制(multihead self-attention,MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field,CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情感分类的准确率和F_(1)值。【结论】本研究提出的模型更有利于汽车销售者分析用户评论,同时对识别用户评论文本的情感极性的研究也有一定的参考价值。展开更多
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integ...【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。展开更多
文摘为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byte Cup 2018数据集对本文提出的英语标题自动生成算法进行实验,并通过过ROUGE-N指标对标题生成质量加以评价。实验研究发现,所提出的句子级LSTM编码方案在英文文本标题生成准确性方面相比于其他常规摘要生成模型来说具有显著优势。
文摘【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks,Bi-LSTM)及多头注意力机制(multihead self-attention,MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field,CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情感分类的准确率和F_(1)值。【结论】本研究提出的模型更有利于汽车销售者分析用户评论,同时对识别用户评论文本的情感极性的研究也有一定的参考价值。
文摘【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。