摘要
文章从新浪微博和Twitter抓取突发事件语料,根据主题模型确定候选话题,通过对候选话题进行聚类确定更为合适的话题数,然后根据主题模型结果计算相邻时间片话题之间的相似度,在此基础上分析话题的演化,最终完成中英文话题演化的比较分析。文章针对H7N9微博的实证结果表明:新浪微博话题数目较多,话题面更为广泛;国内对H7N9禽流感事件的爆发反应更为强烈;两个平台在话题内容方面也存在一些差异;另外,两个平台话题演化的可视化结果可以描述H7N9禽流感事件新话题的产生、旧话题的消亡以及话题内容随时间的变化。
In this paper,the authors crawl unexpected event corpus from Sina Weibo and Twitter.Topic model are used to obtain candidate topics.According to the results of topics clustering,the authors will get appropriate topic number.Then,the authors calculate similarities between two neighbor topics according to time.Finally,the authors present comparative analysis of topic evolution between Chinese and English.The experimental results show that:comparing with corpora of Twitter,topic number is larger and topics are more extensive on corpora from Sina Weibo;there are more arguments in China to the outbreak of H7N9 and the topic content in Chinese and English is different;additionally,visualization of topic evolution on these two platforms can describe the emerging of new topics,the ending of old topics and the change of topic content over time.
出处
《情报资料工作》
CSSCI
北大核心
2016年第3期19-27,共9页
Information and Documentation Services
基金
国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(编号:14BTQ033)
国家社会科学基金重点项目“大数据环境下社会舆情与决策支持方法体系研究”(编号:14AZD084)
江苏高校哲学社会科学重点研究基地“社会计算与舆情分析”(培育点)的研究成果之一
关键词
话题演化
突发事件舆情分析
社会化媒体
多语言信息处理
topic evolution
unexpected event public opinion analysis
social media
multilingual information processing