为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byt...为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byte Cup 2018数据集对本文提出的英语标题自动生成算法进行实验,并通过过ROUGE-N指标对标题生成质量加以评价。实验研究发现,所提出的句子级LSTM编码方案在英文文本标题生成准确性方面相比于其他常规摘要生成模型来说具有显著优势。展开更多
场景文本图像超分辨率(Scene Text Image Super-Resolution, STISR)旨在提高文本在低分辨率图像中的分辨率和可读性.但是在空间变形或低分辨率的文本图像中,由于缺乏文本区域细节,语义线索和视觉特征信息难以与字符位置匹配对齐,文本识...场景文本图像超分辨率(Scene Text Image Super-Resolution, STISR)旨在提高文本在低分辨率图像中的分辨率和可读性.但是在空间变形或低分辨率的文本图像中,由于缺乏文本区域细节,语义线索和视觉特征信息难以与字符位置匹配对齐,文本识别效果不佳.针对该问题,本文提出多域字符距离感知的场景文本图像超高分辨率重建方法(Perceiving Multi-Domain Character distance super-resolution, PMDC),强化视觉语义特征,提高文本区域和纹理信息.首先,采用非对称卷积以及语义先验信息模块,提取文本图像的视觉和语义特征信息;其次,融合字符距离感知模块中的视觉和语义特征,得到增强位置编码感知字符间的间距变化和语义相似性;最后,结合引导线索和视觉特征对像素进行重组得到超分辨率文本图像.在公开数据集TextZoom上的实验结果,与最近TATT文本超分网络性能相比,在峰值信噪比指标上提高0.11 dB,有效提高文本清晰度和边缘纹理细节,同时提升1.5%的平均识别准确率,改进文本图像的可读性.展开更多
【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记...【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks,Bi-LSTM)及多头注意力机制(multihead self-attention,MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field,CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情感分类的准确率和F_(1)值。【结论】本研究提出的模型更有利于汽车销售者分析用户评论,同时对识别用户评论文本的情感极性的研究也有一定的参考价值。展开更多
【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integ...【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。展开更多
文摘为实现英文文本标题的自动化生成,研究一套基于长短期记忆网络的句子级LSTM编码策略,并在标题生成模型中引入注意力机制来获取英文文本的上下文向量,保留文本中的重要信息。在此基础上,通过负对数似然函数来对模型加以训练。最后通过Byte Cup 2018数据集对本文提出的英语标题自动生成算法进行实验,并通过过ROUGE-N指标对标题生成质量加以评价。实验研究发现,所提出的句子级LSTM编码方案在英文文本标题生成准确性方面相比于其他常规摘要生成模型来说具有显著优势。
文摘【目的】针对方面情感分类输入类别在不同领域之间差异较大,汽车用户评论文本语义信息不全,语义特征难以提取等问题,提出基于双通道输入的并行双向编码表征(bidirectional encoder representation from transformers,BERT)双向长短期记忆多头自注意力模型的方面情感分类方法。【方法】首先采用了方面情感和方面抽取的双重标签进行标注;其次通过并行的方面抽取和方面情感分类任务通道,分别使用BERT、双向长短期记忆网络(bidirectional long and short-term memory networks,Bi-LSTM)及多头注意力机制(multihead self-attention,MHSA)提取更深层次的语义信息及近距离和远距离特征信息;最后采用条件随机场(conditional random field,CRF)分类器和Softmax分类器进行分类。【结果】在相关的汽车用户评论文本数据集和多语言混合数据集上,本研究提出的模型相较于主流的方面情感分类方法,具有同步抽取方面词和判断情感极性的能力,且有效提高了方面词抽取和方面情感分类的准确率和F_(1)值。【结论】本研究提出的模型更有利于汽车销售者分析用户评论,同时对识别用户评论文本的情感极性的研究也有一定的参考价值。
文摘【目的】在中文命名实体识别中,传统命名实体识别方法中词向量只能将其映射为单一向量,无法表征一词多义,在特征提取过程中易忽略局部特征。针对以上问题,提出一种基于知识增强语义表示(enhanced reprsentation through knowledge integration,ERNIE)与多特征融合的实体识别方法。【方法】首先,通过预训练模型ERNIE获得词向量;然后将词向量并行输入双向长短时记忆网络(bidirectional long short-term memory network,BiLSTM)与膨胀卷积神经网络(iterated dilated convolutional neural network,IDCNN)中提取特征,再将输出特征向量进行融合;最后通过条件随机场(conditional random field,CRF)解码获取最佳序列。【结果】本研究所提出的模型优于其他传统模型,在微软亚洲研究院(Microsoft Research Asia,MSRA)数据集上的F_(1)值达到了95.18%,相比基准模型BiLSTM-CRF F_(1)值提高了8.86百分点,相比ERNIE-BiLSTM-CRF模型F_(1)值提高了1.34百分点。此外,在ERNIE-BiLSTM-IDCNN-CRF中引入注意力机制后F_(1)值仅提升了0.07百分点,可见引入注意力机制对本研究所提出的模型之识别效果提升有限。【结论】本研究所提出的模型有效地提升了中文数据集上的实体识别性能,可为自然语言处理的命名实体识别研究提供参考。