-
题名面向微博话题的“主题+观点”词条抽取算法研究
被引量:6
- 1
-
-
作者
姚兆旭
马静
-
机构
南京航空航天大学经济与管理学院
-
出处
《现代图书情报技术》
CSSCI
2016年第7期78-86,共9页
-
基金
国家自然科学基金项目"基于演化本体的网络舆情自适应跟踪方法研究"(项目编号:71373123)
江苏高校哲学社会科学研究重点项目"基于超网络的江苏教育微博舆情多元意见演化模型及应用研究"(项目编号:2015ZDIXM007)
南京航空航天大学基本科研业务费重大项目培育基金项目"基于‘模型–数据双驱动’的复杂社会网络行为大数据分析方法研究"(项目编号:NP201630X)的研究成果之一
-
文摘
【目的】自动抽取微博话题信息,从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中,结合改进的TF-IDF算法,构建主题特征词向量;基于特征词向量中特征词之间的相关度,自动抽取主题词汇链;引入情感词典,抽取主题观点,无监督构建"主题+观点"词条。【结果】使用爬虫工具抽取2014年6月–2015年6月期间4个特定热门微博话题事件的微博共24 598条,抽取"主题+观点"词条,平均准确率达到80.3%,召回率为76.7%。【局限】数据量依旧较小,主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。
-
关键词
义本挖掘
词条抽取
主题模型
微博话题
-
Keywords
Text mining Keyword extraction Topic model Microblog topic
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-