摘要
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。由于微博平台数据量庞大,所以会导致提取带有用户观点的句子较为困难,如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,该文将传统观点句识别方法与共现词相结合,提出了基于共现词的中文微博观点句识别算法。该文的研究内容包含以下几点:首先,利用主题模型对数据进行聚类分析,提取具有内容代表性的词语,组成共现词集合;然后,使用Stanford Parser句法分析工具对微博数据进行句法分析并且进行模板匹配,识别出较为明显的观点句;最后,使用共现词与2-POS[1]等特征,识别句法分析无法识别的观点句。
出处
《电脑知识与技术(过刊)》
2014年第4X期2618-2621,共4页
Computer Knowledge and Technology