基于大数据计算框架的分布式新闻聚类系统设计被引量：9

Design of Distributed News Clustering System Based on Big Data Computing Framework

下载PDF

导出

摘要对海量的互联网新闻进行快速热点聚类是一个重要的研究方向。针对大规模文本聚类的几个关键问题(相似度计算、分布式聚类、聚类结果概要生成),文中设计并实现了一个基于Spark计算框架的分布式新闻聚类系统。该系统采用GPU加速的深度相似度算法进行新闻文本的相似度计算,得到新闻之间的相似关系,并采用图聚类算法进行新闻聚类,最后采用标题压缩技术形成热点描述,生成最终的聚类结果。实验结果证明,文中提出的系统具有较高的执行效率和良好的可扩展性,可以有效地处理大规模新闻的热点聚类任务。 Rapid clustering of massive Internet news to generate hot topic is an important research direction.Aiming at several key problems of large-scale text clustering:similarity calculation,distributed clustering and clustering result summary generation,this paper designed and implemented a Spark-based distributed news clustering system.Firstly,the GPU-accelerated deep similarity algorithm is used to calculate the similarity relationship of news texts.Then the graph clustering algorithm is used for news clustering.Finally,a short title for each class is generated as the class description.Experiments show that the proposed system has high performance and good scalability,and can effectively handle hotspot clustering tasks of large-scale news.

作者卢献华王洪俊 LU Xian-hua;WANG Hong-jun(Beijing Information Science and Technology University,Beijing 100101,China;Beijing TRS Information Technology Co.,Ltd.,Beijing 100101,China)

机构地区北京信息科技大学北京拓尔思信息技术股份有限公司

出处《计算机科学》 CSCD 北大核心 2019年第S11期220-223,共4页 Computer Science

关键词分布式图聚类深度相似度计算 GPU加速标题压缩大数据 Distributed graph clustering Depth similarity calculation GPU acceleration Title compression Big data

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
2孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
3海沫.大数据聚类算法综述[J].计算机科学,2016,43(S1):380-383. 被引量：38
4梁吉业,乔洁,曹付元,刘晓琳.面向短文本分析的分布式表示模型[J].计算机研究与发展,2018,55(8):1631-1640. 被引量：7
5刘鹏,滕家雨,丁恩杰,孟磊.基于Spark的大规模文本k-means并行聚类算法[J].中文信息学报,2017,31(4):145-153. 被引量：14
6杨冰,孙锐,姬东鸿.融入显著性事件信息的标题生成方法[J].计算机工程与应用,2016,52(24):236-240. 被引量：1

二级参考文献76

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2赵念强,鞠时光.网格计算及网格体系结构研究综述[J].计算机工程与设计,2006,27(5):728-730. 被引量：25
3宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
6何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
7J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
8J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
9W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
10A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.

共引文献253

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
2亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
3王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
4李建敦,彭俊杰,张武.云存储中一种基于布局的虚拟磁盘节能调度方法[J].电子学报,2012,40(11):2247-2254. 被引量：10
5许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
6应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,30(2):161-164. 被引量：20
7应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013,21(5):1205-1209. 被引量：10
8肖淇,秦云川,阳王东,李肯立.一种基于MapReduce的防火墙策略冲突并行化检测及消解模型[J].计算机科学,2013,40(3):50-54. 被引量：6
9赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
10吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4

同被引文献96

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
2万倩,朱里越,欧阳峰.基于人工智能的广电舆情分析系统[J].广播与电视技术,2019,0(12):46-52. 被引量：6
3陶彩霞,谢晓军,陈康,郭利荣,刘春.基于云计算的移动互联网大数据用户行为分析引擎设计[J].电信科学,2013,29(3):27-31. 被引量：33
4卢瑛,周树林,林旭东,别雄波.基于光纤传输的大数据均衡合理调度模型设计[J].激光杂志,2019,40(1):140-144. 被引量：11
5王会权,谢东方,刘璐.基于大数据思维与方法的网络舆情监控研究[J].中国广播电视学刊,2019(2):86-91. 被引量：14
6马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究[J].情报科学,2016,34(3):25-28. 被引量：49
7陈美英,周安民.基于改进Single-Pass算法的话题发现技术研究[J].现代计算机,2017,23(6):18-22. 被引量：1
8陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
9曾润喜,陈创.网络舆情信息传播动力机制的比较研究[J].图书情报工作,2018,62(7):12-20. 被引量：27
10连芷萱,兰月新,夏一雪,刘茉,张双狮.面向大数据的网络舆情多维动态分类与预测模型研究[J].情报杂志,2018,37(5):123-133. 被引量：20

引证文献9

1王军.基于大数据的网络舆情传播信息聚类监控研究[J].信息与电脑,2021,33(5):16-18.
2王敏静,王党利,赵美枝.基于人工智能的新闻大数据传播特征及挖掘系统设计[J].制造业自动化,2021,43(7):91-95. 被引量：2
3丁璇.基于大数据聚类的智能探测机器人运动控制系统设计[J].计算机测量与控制,2021,29(8):142-145. 被引量：2
4万倩,朱里越.面向海量新闻数据的舆情分析技术研究[J].广播电视信息,2021,28(10):93-97.
5薛晓璇.基于大数据聚类的用户画像提取与智能推送系统[J].电子设计工程,2022,30(2):184-188. 被引量：3
6卞悦旭,倪伟,王展旭.基于大数据聚类的移动机器人运动跟踪控制系统设计[J].计算机测量与控制,2022,30(4):86-90. 被引量：1
7孟小燕,赵希武.基于蚁群算法的计算引擎均衡部署数学建模[J].计算机仿真,2022,39(11):472-476.
8薛俊杰.智慧教育英语线上课程资源聚类系统设计[J].信息技术,2024,48(2):138-142.
9李洁,许青,张露露,王英明.基于模糊多目标决策的物联网大数据聚类算法[J].重庆科技学院学报（自然科学版）,2024,26(3):75-80.

二级引证文献8

1马㛃.我国印刷业实施“大数据战略”的路径研究[J].传媒论坛,2022,5(19):93-95.
2刘妍萍.基于滑模变结构的轮式机器人运动误差控制器设计[J].计算机测量与控制,2022,30(5):115-120. 被引量：1
3姚志广,任晓霞,赵浩成.一种基于远程通信技术的装修施工巡检机器人本体设计[J].晋中学院学报,2022,39(3):69-73. 被引量：1
4蔡明成,范守城,杨艳,王家喜,袁术平.用户画像技术及其在科技特派员服务领域的应用研究进展[J].南方农业,2022,16(11):156-159.
5朱晓庆.基于人工智能的新闻大数据传播特征及挖掘系统设计[J].信息记录材料,2022,23(5):179-182. 被引量：1
6张啸,韩孝冉,汪荣权,全方逸.单片机与无线通信技术在特殊探测需求下的应用实例[J].机电信息,2022(17):15-18.
7侯露.移动互联网精准推送平台设计初探[J].通信与信息技术,2023(3):27-29. 被引量：2
8徐铭昊.智能化时代AI虚拟主播发展的挑战与出路[J].传媒,2023(21):53-55. 被引量：3

1郑江昌.“微”中见大:让微课成就小学语文高效课堂[J].新教育时代电子杂志（学生版）,2019(38):130-130.
2李国昌.基于LoRa技术和GPU加速的台区拓扑辨识方法[J].电测与仪表,2019,56(21):88-95. 被引量：15
3杨丹,姜华,张玉军,赵骥.“大数据技术”实验教学环境构建研究[J].实验技术与管理,2019,36(11):193-196. 被引量：10
4科技让旅行一路精彩[J].科学中国人,2019,0(19):76-77.
5刘雯,王靖雯.浅谈互联网时代企业领导者角色作用转型[J].知识经济,2019,0(22):89-89. 被引量：1
6须成杰,肖喜荣,张敬谊,郑文婕.基于Spark的大数据分析平台的设计和应用[J].中国卫生信息管理杂志,2019,16(5):633-637. 被引量：6
7程林海,何莹莹,张玉,吕跃进.λ-相似关系下的区间粗糙数粗糙集模型[J].计算机工程与应用,2019,55(21):46-51. 被引量：3
8王昊,杨金中,邵治涛,汪劲,李少阳,刘畅,邹琴英.无人机在矿产资源开发环境遥感调查中的应用[J].环境与发展,2019,31(10):97-99. 被引量：3
9丰彪,余世舟.并行化快速评估算法初步研究[J].自然灾害学报,2019,28(5):105-112. 被引量：1
10孙少波,张红祥.海量三维地震数据体的交互式并行可视化技术实现[J].西安文理学院学报（自然科学版）,2019,22(5):18-23.

计算机科学

2019年第S11期

浏览历史

内容加载中请稍等...

基于大数据计算框架的分布式新闻聚类系统设计被引量：9

参考文献6

二级参考文献76

共引文献253

同被引文献96

引证文献9

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于大数据计算框架的分布式新闻聚类系统设计 被引量：9

参考文献6

二级参考文献76

共引文献253

同被引文献96

引证文献9

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于大数据计算框架的分布式新闻聚类系统设计被引量：9