-
题名基于中文短信文本聚类的热点事件发现
被引量:4
- 1
-
-
作者
刘金岭
王新功
-
机构
淮阴工学院计算机工程学院淮安
沧州师范学院计算机系沧州
-
出处
《情报杂志》
CSSCI
北大核心
2013年第2期30-33,共4页
-
基金
河北省科技支撑计划项目“垃圾信息的预意识别”(编号:10213581)
淮阴工学院重点基金项目(编号:HGA0907)资助
-
文摘
随着通信事业的快速发展,短信文本信息量非常巨大,乃至亿级,同时大类别短信文本中隐含着热点事件。现有聚类算法对海量短信文本进行聚类分析显得力不从心。利用短信文本在给定时间段中的内聚性,对待聚类的短信文本进行排序,并在聚类过程中清除孤立信息和小类别短信文本。实验表明,对于海量短信文本的大类别聚类效率是非常高的。
-
关键词
大类别
短信文本聚类方法热点事件
-
Keywords
large size class SMS text clustering method hot events
-
分类号
G206.3
[文化科学—传播学]
-
-
题名基于短信文本信息流的多热点事件挖掘
被引量:6
- 2
-
-
作者
刘金岭
王新功
周泓
-
机构
淮阴工学院计算机工程学院
沧州师范学院计算机系
-
出处
《山东大学学报(工学版)》
CAS
北大核心
2013年第3期7-12,共6页
-
基金
河北省科技计划资助项目(10213581)
淮安市社会支撑资助项目(HASZ2012046)
-
文摘
短信文本信息流携带了丰富的信息资源,为了在其中挖掘出多热点事件,给出了短信文本信息流在线分检算法,该方法采用特征词共现频度定义了特征词相关度,综合前导信息集合及信息产生频率定义了短信文本相似度。并且每聚类到一个时间段后,就对已聚类的短信文本进行周期分类。该算法对大数量短文本信息流的多热点事件检索效率较高,同时减少了信息的误检和漏检的可能性。在真实数据集上与Single-Pass算法进行比较实验,其结果表明了各项指标都有不同程度的提高。
-
关键词
短信文本
信息流
热点事件
Single-Pass
聚类
-
Keywords
short message text
information flow
hot event
Single-Pass
clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-