期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于Hadoop微博热点话题挖掘系统的设计与实现
1
作者 杨浩 曾兴斌 何加铭 《数据通信》 2016年第2期10-12,54,共4页
为获得微博中的热点话题,本文设计并实现了一个基于Hadoop微博热点话题挖掘系统,包含数据采集、数据预处理、数据存储、热点话题挖掘四个子系统。面对庞大数据量,采用HDFS分布式存储;在TF-IDF算法的基础上做出了改进,本文提出影响度的概... 为获得微博中的热点话题,本文设计并实现了一个基于Hadoop微博热点话题挖掘系统,包含数据采集、数据预处理、数据存储、热点话题挖掘四个子系统。面对庞大数据量,采用HDFS分布式存储;在TF-IDF算法的基础上做出了改进,本文提出影响度的概念;针对单节点数据处理的性能瓶颈,对改进后的TF-IDF算法和经典关联规则挖掘算法Apriori进行了Map R educe化设计。实验结果表明,该系统能高效率地采集微博数据,同时能够提取微博热点话题。并且当数据量变大,该系统较单节点有明显时间优势。 展开更多
关键词 HADOOP 微博 热点话题挖掘 MAP REDUCE TF-IDF APRIORI
下载PDF
基于模糊聚类的网络论坛热点话题挖掘 被引量:20
2
作者 鲁明羽 姚晓娜 魏善岭 《大连海事大学学报》 EI CAS CSCD 北大核心 2008年第4期52-54,58,共4页
为解决单个帖子线索的多话题性问题,识别聚类中的孤立点,提出一种基于模糊聚类的网络论坛(BBS)热点话题挖掘算法.采用模糊聚类进行话题识别,使得一个帖子线索可以隶属于多个话题,而对于隶属度远小于类内平均隶属度的帖子线索,则当作孤... 为解决单个帖子线索的多话题性问题,识别聚类中的孤立点,提出一种基于模糊聚类的网络论坛(BBS)热点话题挖掘算法.采用模糊聚类进行话题识别,使得一个帖子线索可以隶属于多个话题,而对于隶属度远小于类内平均隶属度的帖子线索,则当作孤立点来处理.此外,还给出了一种面向BBS文本的特征表示方法,并结合隶属度给出基于模糊划分的话题热度评分公式.实验结果验证了该算法的有效性. 展开更多
关键词 网络论坛(BBS) 热点话题挖掘 模糊聚类 帖子线索
原文传递
一种面向社会网络的热点话题数据挖掘算法 被引量:7
3
作者 肖志军 《计算机应用与软件》 CSCD 北大核心 2014年第6期24-28,共5页
社会网络中的热点话题数据挖掘问题是目前的研究热点。针对现有方法应用到社会网络时挖掘结果不准确、不便于理解和时间复杂度高等不足,提出一种改进的挖掘算法。首先采用核密度估计法对话题进行分析,然后基于小世界理论和社会网络的链... 社会网络中的热点话题数据挖掘问题是目前的研究热点。针对现有方法应用到社会网络时挖掘结果不准确、不便于理解和时间复杂度高等不足,提出一种改进的挖掘算法。首先采用核密度估计法对话题进行分析,然后基于小世界理论和社会网络的链接特性对话题时间序列进行建模,最后提出基于学习的方法来对话题的走向和趋势进行预测,在不降低准确率的前提下,快速挖掘出下一时刻最有可能爆发的话题,达到准确预测话题传播趋势的目的。仿真实验结果表明,该方法是有效的,能够保证挖掘的整体效果,在挖掘准确率方面要优于已有的方法。 展开更多
关键词 社会网络 热点话题挖掘 链接特性 时间序列 学习 准确率
下载PDF
博客资源数据挖掘研究现状 被引量:2
4
作者 王洪福 李怀龙 张家年 《电脑知识与技术》 2013年第4X期2771-2773,共3页
目前中国有3.73亿网民拥有博客,博客网站上已经存在海量的信息。对这些博客资源进行挖掘,可以获得有价值的信息。博客资源挖掘是Web数据挖掘的一种具体应用。探讨了国内外学者对博客资源进行数据挖掘的已有成果、各种方法与技术,涉及到... 目前中国有3.73亿网民拥有博客,博客网站上已经存在海量的信息。对这些博客资源进行挖掘,可以获得有价值的信息。博客资源挖掘是Web数据挖掘的一种具体应用。探讨了国内外学者对博客资源进行数据挖掘的已有成果、各种方法与技术,涉及到博客网页的识别、博客传播特征、语义博客系统、博客之间的链接与交互、博客作者信息挖掘、博客主题挖掘、博客分类与聚类算法等。热点话题挖掘是博客数据挖掘的一种具体形式,也介绍了博客热点话题挖掘的方法与技术。 展开更多
关键词 博客 BLOG WEB 数据挖掘 算法 热点话题挖掘 现状
下载PDF
基于EM-LDA综合模型的电商微博热点话题发现 被引量:14
5
作者 伍万坤 吴清烈 顾锦江 《现代图书情报技术》 CSSCI 2015年第11期33-40,共8页
【目的】在社交营销环境下,准确且有效地挖掘电商微博中的热点话题。【方法】提出一种综合模型EM-LDA对电商微博文本数据进行主题挖掘。EM-LDA综合模型包含两个子模型:ET-LDA模型和IT-LDA模型,前者对含有哈希标签的微博进行主题挖掘,后... 【目的】在社交营销环境下,准确且有效地挖掘电商微博中的热点话题。【方法】提出一种综合模型EM-LDA对电商微博文本数据进行主题挖掘。EM-LDA综合模型包含两个子模型:ET-LDA模型和IT-LDA模型,前者对含有哈希标签的微博进行主题挖掘,后者对不含有哈希标签的微博进行主题挖掘。【结果】在确定合适的主题个数之后,标准LDA模型和EM-LDA综合模型均被用来挖掘电商微博文本数据的热点话题,与标准LDA模型相比,EM-LDA综合模型的热词挖掘准确率和有效性均较高,且能提高主题可解释性。【局限】在ET-LDA模型中,未考虑微博联系人之间的关联关系,即模型中未引入用户特征;在IT-LDA模型中没有考虑如何处理那些既是转发式又是对话式的电商微博。【结论】EM-LDA综合模型根据数据的特点,改进了标准LDA模型,能够提升电商微博热点话题识别的准确性。 展开更多
关键词 电商微博 热点话题挖掘 哈希标签EM-LDA
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部