摘要
基于Single-Pass算法思想,研究网络话题的在线聚类方法,以期及时捕捉网络信息的动态变化在分析该方法聚类流程的基础上,重点研究网络动态信息流的文本特征抽取和权重计算方法,以及话题类表示和更新等关键问题,设计实验对比分析不同的标题中特征加权系数、特征权重计算和标准化方法以及话题类向量维度对话题聚类质量和时间效率的影响。
In order to get dynamics of Web information timely, an online Web topic clustering approach based on Single - Pass algorithm is researched. The clustering process of this approach is analyzed firstly, and the key problems including extracting and weight calculating of features as well as representation and modification of topic cluster are deliberated. Experiment is designed to compare the effects of different weight factor of features in title, weight calculating and normalizing methods of features and the vector dimension of topic cluster on cluster quality and time efficiency.
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第12期52-57,共6页
New Technology of Library and Information Service
基金
江苏省社会科学基金项目"网络舆论危机的生成与预警机制研究"(项目编号:10TQC009)
江苏省教育厅高校哲学社会科学项目"互联网舆情演化的动态网络模型研究"(项目编号:2011SJB870006)
南京邮电大学青蓝计划"网络舆情热点发现及动态预警研究"(项目编号:NY210055)的研究成果之一