期刊文献+

面向微博话题的“主题+观点”词条抽取算法研究 被引量:6

Extracting Topic and Opinion from Microblog Posts with New Algorithm
原文传递
导出
摘要 【目的】自动抽取微博话题信息,从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中,结合改进的TF-IDF算法,构建主题特征词向量;基于特征词向量中特征词之间的相关度,自动抽取主题词汇链;引入情感词典,抽取主题观点,无监督构建"主题+观点"词条。【结果】使用爬虫工具抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条,抽取"主题+观点"词条,平均准确率达到80.3%,召回率为76.7%。【局限】数据量依旧较小,主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。 [Objective] This paper proposes an algorithm to extract topic and opinion information from the microblog posts automatically. [Methods] First, we used the improved TF-IDF algorithm to build the topic characteristic word vector. Second, we generated lexical chain for the topics based on the relevance among words of the vector. Finally, we extracted the topic and opinion information with the sentiment dictionary, and then generated the "topic+opinion" entries. [Results] We analyzed 24,598 Sina microblog posts of four trending events from June 2014 to June 2015 retrieved by a specially designed crawler. The precision and recall rates of the proposed method were 80.3% and 76.67%, respectively. [Limitations] The data size was small, the effect that the topic model extracted the feature about Weibo still required to be improved. [Conclusions] The proposed algorithm could effectively extract the "topic and opinion" information from micoblog posts.
作者 姚兆旭 马静
出处 《现代图书情报技术》 CSSCI 2016年第7期78-86,共9页 New Technology of Library and Information Service
基金 国家自然科学基金项目"基于演化本体的网络舆情自适应跟踪方法研究"(项目编号:71373123) 江苏高校哲学社会科学研究重点项目"基于超网络的江苏教育微博舆情多元意见演化模型及应用研究"(项目编号:2015ZDIXM007) 南京航空航天大学基本科研业务费重大项目培育基金项目"基于‘模型–数据双驱动’的复杂社会网络行为大数据分析方法研究"(项目编号:NP201630X)的研究成果之一
关键词 义本挖掘 词条抽取 主题模型 微博话题 Text mining Keyword extraction Topic model Microblog topic
  • 相关文献

参考文献6

二级参考文献129

共引文献401

同被引文献72

引证文献6

二级引证文献36

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部