摘要
关键词抽取是从文档中筛选出核心的词语,简要概括文档的主题。对于新闻文档来说,有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容,提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征,使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频,这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成,而这些词语并不存在于候选的关键词列表当中,这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集,进行关键词抽取技术研究,通过构建"文档-关键词"翻译器,并对机器翻译的方法进行训练,提高文档词和关键词之间的翻译概率;把训练的模型进行抽象模型化,实现关键词抽取,取得良好的效果。同时,通过引入维基百科词条库进行词语合并,使得关键词抽取效果得到更进一步的提升。
出处
《科技传播》
2015年第7期85-86 204,共3页
Public Communication of Science & Technology