摘要
微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然后利用本文提出的相关统计特征:候选词串的互信息与邻接信息熵等对候选词串进行筛选,实现新词过滤。
As a typical social network application,micro-blog springs up many new words every day which is a new research hotspot in the field of natural language processing.This paper presents a method using generalized suffix tree to extract new words based on computing repetitive content.And then proposed statistical characteris-tics are used:mutual information and entropy of information to filter the candidates.
出处
《软件》
2015年第11期6-8,共3页
Software
基金
高等学校学科创新引智计划(111计划)项目(B08004)
新一代宽带无线移动通信网国家科技重大专项(2011ZX03002-005-01)
国家自然科学基金资助项目(61273217)
博士点基金资助项目(20130005110004)
关键词
微博
新词发现
新词过滤
后缀树
Micro-blog
New words detection
Words filter
Suffix tree