DBSCAN优化算法在实验文本大数据分析中的应用研究被引量：1

Application and Research of DBSCAN Optimization Algorithm in Big Data Analysis of Experimental Text

下载PDF

导出

摘要大数据是近年来计算机领域兴起的研究热点,通过聚类可以解决诸如数据挖掘、机器学习、文本处理等大数据领域问题。针对传统的DBSCAN算法参数需要人工设定,且算法速度无法适应大数据应用等问题,本文提出了一种DBSCAN优化算法。利用KD树加快查找邻域对象,显著减少算法的运行时间;同时,通过计算所有邻域对象的数学期望,实现密度阈值(Minpts)参数自适应;接着,设计了一种文本聚类流程,通过SD-TF-IDF算法对特征项的权值进行优化,进而完成对文本的聚类任务;最后,将其应用于高校计算机实验文本大数据的挖掘分析中,取得了良好的效果。 Big data is a research hotspot emerging in the computer field in recent years. Clustering can solve problems in the field of big data, such as data mining, machine learning, and text processing. Aiming at the problems that parameters of traditional DBSCAN algorithm need to be set manually and the algorithm speed cannot adapt to the application of big data, a DBSCAN optimization algorithm was proposed. The KD tree was used to speed up the search for neighborhood objects, significantly reducing the running time of the algorithm;at the same time, the density threshold (Minpts) was adaptive by calculating the mathematical expectations of all neighborhood objects;then, a text clustering process was designed, and the weights of feature items were optimized through SD-TF-IDF to complete the text clustering task;finally, it was applied to the mining and analysis of big data of computer experimental text in colleges and universities, and good results had been achieved.

作者史婷婷刘卫华刘双印徐龙琴

机构地区仲恺农业工程学院信息科学与技术学院广东司法警官职业学院仲恺农业工程学院信息科学与技术学院仲恺农业工程学院广东省农产品安全大数据工程技术研究中心仲恺农业工程学院广东省高校智慧农业工程技术研究中心

出处《计算机科学与应用》 2020年第5期906-913,共8页 Computer Science and Application

基金教育部科技发展中心高校产学研创新基金——新一代信息技术创新项目(2018A01015),教育部科技发展中心高校产学研创新基金——新一代信息技术创新项目(2018A02027),国家自然科学基金项目(61871475,61471133).

关键词 DBSCAN、密度聚类、文本聚类、实验大数据分析

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献9

1李璐明,蒋新华,廖律超.基于弹性分布数据集的海量空间数据密度聚类[J].湖南大学学报（自然科学版）,2015,42(8):116-124. 被引量：5
2刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
3侯丽利,董书宝.基于NoSQL数据库的大数据查询技术的研究与应用[J].无线互联科技,2015,12(1):147-147. 被引量：5
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
6闫安,刘琪林.一种基于参考点的快速密度聚类算法[J].微电子学与计算机,2017,34(10):32-35. 被引量：3
7张振亚,程红梅,王进,王煦法.面向凝聚式层次聚类算法实现的矩阵存储数据结构研究[J].计算机科学,2006,33(1):14-17. 被引量：5
8张忠林,曹志宇,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报（工学版）,2010,31(1):89-92. 被引量：35
9赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(9):83-85. 被引量：29

二级参考文献92

1谭勇,荣秋生.一个基于DBSCAN聚类算法的实现[J].计算机工程,2004,30(13):119-121. 被引量：7
2单世民,邓贵仕,何英昊.一种基于网格和密度的微粒群混合聚类算法[J].计算机科学,2006,33(11):164-165. 被引量：3
3刘敏娟,柴玉梅,张西芝.基于相似度的网格聚类算法[J].计算机工程与应用,2007,43(7):198-201. 被引量：12
4孙玉芬,卢炎生.一种基于网格方法的高维数据流子空间聚类算法[J].计算机科学,2007,34(4):199-203. 被引量：8
5Ohsawa Y, Nara Y. Decision process modeling across internet and real world by double helical model for chance discovery [J]. New Generation Computing, 2003, 21(2) : 109-121.
6Shu B, Kak S. A neural network-based intelligent metasearch engine [J]. Information Sciences, 1999,120(1) :1-11.
7ChiaHui, Chang Enabling Concept-Based Relevance Feedback for Information Retrieval on the WWW [J]. IEEE Trans. on Knowledge and Data Engineering, 1999,11 (4): 595-609.
8Arwar. hem-Based collaborative filtering recommendation algorithms [A], Ins Proc. of the 10tb Intl. World Wide Web Conf.(WWW10) [C], 2001. 285-295.
9Jain A,Dubes R C. Algorithms for Clustering Data [M]. Prentice Hall, 1988.
10Karypis G, Han E,Kurnar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling [J]. IEEE Computer,1999, 32(8) :68-75.

共引文献103

1马振,刘凤连,汪日伟.基于子模式下LBP-HOG特征融合的单样本人脸识别方法[J].光电子．激光,2019,30(12):1309-1316. 被引量：8
2江朝晖,张相华,林俊如,王立荣,冯焕清.基于互联网的交通信息资源自动获取技术研究[J].公路交通科技（应用技术版）,2008,4(8):168-170.
3袁赟,焦锋.基于WEB文本挖掘的证券投资系统的分析与设计[J].邵阳学院学报（自然科学版）,2008,5(2):45-47.
4刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报,2010,33(7):1246-1255. 被引量：14
5宋晓眉,程昌秀,周成虎,陈荣国.利用k阶空间邻近图的空间层次聚类方法[J].武汉大学学报（信息科学版）,2010,35(12):1496-1499. 被引量：9
6邓冬梅,龙际珍,尹湘舟.一种结构化Web文档的联合聚类算法[J].中南大学学报（自然科学版）,2010,41(5):1871-1876. 被引量：1
7李翠,冯冬青.基于改进K-均值聚类的图像分割算法研究[J].郑州大学学报（理学版）,2011,43(1):109-113. 被引量：25
8何佃伟,杨承志,张荣,吴宏超.一种基于改进网格聚类的雷达信号分选算法[J].雷达与对抗,2011,31(2):43-45. 被引量：11
9杨秋,王建涛,张荣,杨承志.一种基于自适应密度阈值的未知雷达信号分选算法[J].电子信息对抗技术,2012,27(1):16-18. 被引量：4
10赵春,潘建平,陈璟.一种新的基于层次凝聚的高效复合聚类算法[J].科技通报,2012,28(4):125-127. 被引量：1

同被引文献17

1姜胜洪.把握网络舆情规律加强正面舆论引导——以杭州飙车案的网络舆情变动为例[J].中国党政干部论坛,2010(7):56-57. 被引量：9
2汪燕娟.BBS的群体极化效应和“沉默的螺旋”[J].青年记者,2010(14):79-80. 被引量：8
3李群,袁津生.基于DBSCAN的最优密度文本聚类算法[J].计算机工程与设计,2012,33(4):1409-1413. 被引量：14
4欧阳照,赵旭婷.视频时间轴的弹幕评论:特点与局限刍议[J].重庆邮电大学学报（社会科学版）,2016,28(4):136-141. 被引量：10
5杜慧,徐学可,伍大勇,刘悦,余智华,程学旗.基于情感词向量的微博情感分类[J].中文信息学报,2017,31(3):170-176. 被引量：21
6王雪瑞,刘渊.面向国内直播行业的分布式弹幕爬虫研究[J].计算机应用与软件,2018,35(2):134-140. 被引量：5
7朱海澎.弹幕文本挖掘:一种影视内容定量测评方法[J].传媒观察,2019(2):85-91. 被引量：7
8陈席元.弹幕话语建构的青年亚文化网络社群研究——以哔哩哔哩网对Keyki事件反应为例[J].电脑知识与技术（过刊）,2014,20(7X):4667-4669. 被引量：22
9陈志娟,丁靓琦.狂欢与理性：青年群体弹幕使用研究——以网络综艺类节目《创造101》为案例[J].中国青年研究,2019,0(11):93-99. 被引量：15
10李振鹏,陈碧珍,罗静宇.基于文本挖掘的网络舆情分类研究[J].系统科学与数学,2020,40(5):813-826. 被引量：8

引证文献1

1刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：2

二级引证文献2

1赵婧.从符号学视角看中国传统文化传播——以《典籍里的中国》为例[J].新闻世界,2023(6):94-97. 被引量：1
2易臣何,文逸聪.用户弹幕评论行为影响因素实证分析[J].图书馆论坛,2024,44(10):113-120.

1舒丽君,陆玲.基于PCL库三维点云树枝重建[J].电脑与信息技术,2020,28(2):1-4. 被引量：6
2马聪聪,李松,曹菁菁,于蒙.基于法向量和密度的点云特征点提取问题研究[J].计算机应用与软件,2020,37(5):256-260. 被引量：8
3张戈.课程推荐预测模型优化方案及数据离散化算法[J].计算机系统应用,2020,29(4):248-253.

计算机科学与应用

2020年第5期

浏览历史

内容加载中请稍等...

DBSCAN优化算法在实验文本大数据分析中的应用研究被引量：1

参考文献9

二级参考文献92

共引文献103

同被引文献17

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

DBSCAN优化算法在实验文本大数据分析中的应用研究 被引量：1

参考文献9

二级参考文献92

共引文献103

同被引文献17

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

DBSCAN优化算法在实验文本大数据分析中的应用研究被引量：1