期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向大规模数据的在线新事件检测 被引量:1
1
作者 蔡偃武 高大启 +1 位作者 阮彤 蒋锐权 《计算机工程》 CAS CSCD 2014年第10期37-42,共6页
通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比... 通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s^200条/s。 展开更多
关键词 新事件检测 单路径聚类 大规模数据 并行计算 倒排索引 MapReduce架构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部