摘要
【目的】通过多视图协同可视化的方式对时序文本挖掘过程进行可视化,以实现多角度多层面洞察文本数据背后隐藏的规律和信息。【方法】基于文本词向量矩阵,对多政策主体的政策时序文本,通过数据清洗、计算TF-IDF值、构建向量空间模型、奇异值分解等文本挖掘技术进行信息提取和可交互的可视化探索分析。【结果】选取2016年1月–2017年8月北京市中关村示范区下属子园区的相关委内信息文本为样本,采用文本挖掘技术和多视图协同可视化方法,探索政策文本背后的规律,验证了本文方法和框架的有效性。【局限】针对大规模文本具体细节单数据点的展示效果不佳,文本挖掘技术有待进一步提升,模型数据吞吐量有待基于大数据架构进一步增强。【结论】本文方法和框架能够对时序文本类数据做到充分的挖掘展示,更好地把握数据背后的信息,增强政策主体的决策依据。
[Objective] This paper visualizes the text mining process through multi-view collaborative technique,aiming to identify the patterns and insights more effectively.[Methods] Based on the textual word vector matrix,we processed the texts of multi-policy subjects with data cleaning,TF-IDF calculation,vector space model,singular value decomposition and other methods.[Results] We examined effectivenesss of the proposed model with governmental information from Zhongguancun of Beijing during the period of January 2016 to August 2017.[Limitations] The framework could not visualize the single data points of large-scale texts.[Conclusions] Multi-view collaborative visualization is an effective way to interpretate text message.
作者
杨亚楠
赵文辉
张健
谭珅
张贝贝
Yang Yanan;Zhao Wenhui;Zhang Jian;Tan Shen;Zhang Beibei(School of Economics and Management,Beijing University of Information Science and Technology,Beijing 100192,China;School of Management and Economics,Beijing Institute of Technology,Beijing 100081,China;Beijing Key Laboratory of Big Data Decision Making for Green Development,Beijing 100192,China)
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第6期30-41,共12页
Data Analysis and Knowledge Discovery
基金
北京市社会科学基金项目“北京高新技术产业制造服务化的转型机制研究——基于商业模式创新视角”(项目编号:16JDGLA030)
促进高校内涵发展–研究生科技创新项目–经济管理学院“中关村经济数据的协同可视化与创新研究”(项目编号:5111823513)的研究成果之一
关键词
文本挖掘
文本可视化
多视图协同
政策分析
Text Mining
Text Visualization
Multi-View Collaboration
Policy Analysis