关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方...关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方法主要包括两类:关键词抽取和关键词生成。关键词抽取是从给定文本中快速、准确地抽取文中出现过的显著性短语作为关键词。与关键词抽取不同,关键词生成既能预测出现在给定文本中的关键词,也能预测未出现在给定文本中的关键词。总而言之,这两类方法各有优劣。然而,现有的关键词生成工作大多忽视了抽取式特征可能为关键词生成模型带来的潜在收益。抽取式特征能指明原文本的重要片段,对于模型学习原文本的深层语义表示起到重要作用。因此,结合抽取式和生成式方法的优势,提出了一种新的融合多粒度抽取式特征的关键词生成模型(incorporating Multi-Granularity Extractive features for keyphrase generation,MGE-Net)。在一系列公开数据集上的实验结果表明,和近年来的关键词生成模型相比,所提模型在大多数评价指标上取得了显著的性能提升。展开更多
基金国家自然科学基金( the National Natural Science Foundation of China under Grant No60473071) 高等院校博士学科点专项科研基金( the China Specialized Research Fund for the Doctoral Program of Higher Education under Grant No20020610007)
文摘关键词是概括给定文本核心主题及关键内容的一组短语。在信息过载日益严重的今天,从给定的大量文本信息中预测出具有其中心思想的关键词至关重要。因此,关键词预测作为自然语言处理的基本任务之一,受到越来越多研究者的关注。其对应方法主要包括两类:关键词抽取和关键词生成。关键词抽取是从给定文本中快速、准确地抽取文中出现过的显著性短语作为关键词。与关键词抽取不同,关键词生成既能预测出现在给定文本中的关键词,也能预测未出现在给定文本中的关键词。总而言之,这两类方法各有优劣。然而,现有的关键词生成工作大多忽视了抽取式特征可能为关键词生成模型带来的潜在收益。抽取式特征能指明原文本的重要片段,对于模型学习原文本的深层语义表示起到重要作用。因此,结合抽取式和生成式方法的优势,提出了一种新的融合多粒度抽取式特征的关键词生成模型(incorporating Multi-Granularity Extractive features for keyphrase generation,MGE-Net)。在一系列公开数据集上的实验结果表明,和近年来的关键词生成模型相比,所提模型在大多数评价指标上取得了显著的性能提升。