中文情感分析是自然语言处理的重要研究内容,旨在探究中文文本中蕴含的情感倾向.近年来,中文情感分析研究取得了长足进步,但鲜有研究根据语言本身特征和下游任务需求进行探讨.鉴于此,针对中文文本的特殊性以及情感分析的实际需求,在字...中文情感分析是自然语言处理的重要研究内容,旨在探究中文文本中蕴含的情感倾向.近年来,中文情感分析研究取得了长足进步,但鲜有研究根据语言本身特征和下游任务需求进行探讨.鉴于此,针对中文文本的特殊性以及情感分析的实际需求,在字、词特征的基础上,引入部首特征和情感词性特征,利用双向长短期记忆网络、注意力机制、循环卷积神经网络等模型,提出了融合字、词、部首、词性等多粒度语义特征的中文文本情感分析方法.在融合各类特征的基础上,利用softmax函数进行情感预测.数据集NLPECC(natural language processing and Chinese computing)上的对比实验结果表明,所提方法的F1值均达到84.80%,一定程度上提高了已有方法的性能,较好地完成了中文文本情感分析任务.展开更多
信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容...信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.展开更多
关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任...关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用条件随机场(conditional random field,CRF)模型进行序列标注任务,并计算词语的位置-词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比,MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。展开更多
文摘中文情感分析是自然语言处理的重要研究内容,旨在探究中文文本中蕴含的情感倾向.近年来,中文情感分析研究取得了长足进步,但鲜有研究根据语言本身特征和下游任务需求进行探讨.鉴于此,针对中文文本的特殊性以及情感分析的实际需求,在字、词特征的基础上,引入部首特征和情感词性特征,利用双向长短期记忆网络、注意力机制、循环卷积神经网络等模型,提出了融合字、词、部首、词性等多粒度语义特征的中文文本情感分析方法.在融合各类特征的基础上,利用softmax函数进行情感预测.数据集NLPECC(natural language processing and Chinese computing)上的对比实验结果表明,所提方法的F1值均达到84.80%,一定程度上提高了已有方法的性能,较好地完成了中文文本情感分析任务.
文摘信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.
文摘关键词抽取是指能自动抽取反映文本主题的词或者短语,被广泛应用于文本检索、文本摘要等领域中。目前关键词抽取任务主要依赖于预训练语言模型来获取文本表示,这类语言模型主要基于单一模态的通用文本语料进行训练,存在无法根据下游任务特性进行领域适配和语义表征能力有限的问题。该文提出一种多模态信息增强表示的中文关键词抽取方法MIEnhance-KPE,首先引入Adapter层将偏旁和部首信息集成到预训练语言模型层中,得到领域自适应的文本表示;其次利用卷积神经网络提取汉字的图像特征,同时使用交叉注意力机制融合汉字图像特征和文本特征,实现文本语义表示增强;最后利用条件随机场(conditional random field,CRF)模型进行序列标注任务,并计算词语的位置-词频权重对其进行排序获得关键词。与目前十分先进的关键词抽取方法KIEMP相比,MIEnhance-KPE在公开的中文科学文献数据集和自构建的中文教育关键词抽取数据集上的F值分别提升了15.71%和3.40%;消融实验结果表明,所提出的领域自适应模块和视觉语义增强表示模块均能有效提高关键词抽取的准确性。MIEnhance-KPE的提出有助于教育研究者精准了解教育发展趋势,促进教育理论和实践的创新。