一种基于MinHash的改进新闻文本聚类算法被引量：4

An Improved News Text Clustering Algorithm Based on MinHash

下载PDF

导出

摘要信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。 The continuous development of information technology has brought about the rapid growth of news texts on the Internet.In the face of a large number of news texts,it is very important to cluster them effectively.Based on the above requirements,we propose an improved DBSCAN clustering algorithm based on MinHash.In order to solve the problem of high data dimension,high computational complexity and large resource consumption in traditional vector space model text clustering,this algorithm uses MinHash to reduce the dimension of all text feature word sets,thus effectively reducing the wastes of resources.Jaccard coefficient is calculated for any two-by-two data in the obtained characteristics matrix,and each result is compared with the neighborhood radius Eps in DBSCAN clustering and calculated whether all the neighboring nodes whose distances are greater than the neighborhood radius Eps is greater than or equal to MinPts.Therefore,we can determine whether the text is a core point and whether clusters can be formed.Experiment shows that the algorithm has a better effect on news text clustering and can effectively cluster the intricate news text on the Internet.

作者王安瑾 WANG An-jin(School of Computer Science and Technology,Donghua University,Shanghai 200000,China)

机构地区东华大学计算机科学与技术学院

出处《计算机技术与发展》 2019年第2期39-42,共4页 Computer Technology and Development

基金国家自然科学基金(61472075)

关键词 MinHash Jaccard系数 DBSCAN 文本聚类 MinHash Jaccard coefficient DBSCAN text-clustering

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,33(1):63-68. 被引量：62
2车蕾,杨小平.多特征融合文本聚类的新闻话题发现模型[J].国防科技大学学报,2017,39(3):85-90. 被引量：9
3王洪亚,吴西送,任建军,赵银龙.分布式平台下MinHash算法研究与实现[J].智能计算机与应用,2014,4(6):44-46. 被引量：5
4王佳玉,张振宇,褚征,吴晓红.一种基于轨迹数据密度分区的分布式并行聚类方法[J].中国科学技术大学学报,2018,48(1):47-56. 被引量：6
5马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17

二级参考文献30

1何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
2中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
3Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
4吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
5Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
6Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
7[EB/OL].http:/Itech.sina.com.cn/i/2014-03-27 /10239 276800.shtlm,2014-03-27.
8Sahon G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
9Deerwester S C, Dumais S T, Landauer T K, et al. In- dexing by latent semantic analysis[J]. JASIS, 1990, 41 (6): 391-407.
10Thomas Hofmann.Unsupervised Learning by Probabi- listic Latent Semantic Analysis[J].Machine Learning, 2001,42(1) :177-196.

共引文献92

1王劲,孙瑞英.主题聚类视域下地方公共数据管理政策完备性分析[J].知识管理论坛,2024(1):65-78.
2李磊,李梓阁.基于LDA主题模型的自贸区治理政策文本聚类分析——以辽宁自贸区为例[J].吉首大学学报（社会科学版）,2021,42(2):23-34. 被引量：17
3金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
4张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
5王希杰.一种基于网页指纹的网页查重技术研究[J].计算机仿真,2011,28(9):154-157. 被引量：2
6叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
7杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
8俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
9张晓伟.网页指纹查重技术的研究[J].价值工程,2014,33(15):225-226.
10徐凯,沙瀛,李阳,单既喜,王晓岩.Twitter中重复消息的分析和处理[J].计算机工程与应用,2014,50(21):111-115.

同被引文献32

1谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
2杨子江,王野,马天诣.影响汽车保险续保率的因素分析[J].企业研究（理论版）,2011(5):107-107. 被引量：6
3孙海霞,李军莲,吴英杰.基于K-means的机构归一化研究[J].医学信息学杂志,2013,34(7):41-44. 被引量：10
4徐立宁.基于动态精准画像的图书馆个性化推荐服务研究[J].图书馆学刊,2018,40(10):112-116. 被引量：10
5张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015,25(4):158-161. 被引量：35
6史新颖,夏元平,毛曦,殷红梅.DBSCAN与Kmeans相结合的手机大数据聚类方法研究[J].北京测绘,2019,33(2):132-137. 被引量：12
7鲁明,宋馥莉.基于误差加权哈希的图像检索方法[J].河南科技,2016,35(17):56-58. 被引量：1
8吴金李,张建明.基于二分K-means的协同过滤推荐算法[J].软件导刊,2017,16(1):26-29. 被引量：6
9李来,刘光灿,孙玉宝,刘青山.各向同性的迭代量化哈希算法[J].电子学报,2017,45(7):1707-1714. 被引量：4
10牛奉高,张亚宇.基于共现潜在语义向量空间模型的语义核构建[J].情报学报,2017,36(8):834-842. 被引量：10

引证文献4

1张雯玮,徐凡,黄君杰,赵明修.基于k-means算法的保险业数字化变革[J].数字技术与应用,2019,37(4):121-122. 被引量：1
2刘翔宇.基于分块sim-min-Hash的近似图像检索[J].计算机应用与软件,2019,36(7):259-263. 被引量：2
3王梦环,罗小龙,李梓华.基于多模态特征挖掘的新媒体版权保护方法研究与应用[J].中国传媒科技,2023(6):74-78.
4赵悦阳,崔雷.基于融合矩阵的文本相似度计算实现检索结果聚类[J].医学信息学杂志,2024,45(3):58-64.

二级引证文献3

1钱智勇,董超,葛莉.基于MC-BN模型对车险续保的研究[J].智库时代,2020,0(13):295-296.
2刘瑞昊,于振中,孙强.基于深度学习的织物图像检索系统研究[J].棉纺织技术,2022,50(5):42-47. 被引量：3
3王彪,毋涛.基于卷积神经网络的面料检索系统[J].计算机技术与发展,2023,33(9):52-56.

1王筱远.数据挖掘中的聚类算法分析[J].中国新通信,2018,20(23):110-111. 被引量：2
2米硕,孙瑞彬,明晓,赵汝程.基于TF-IDF算法的文本特征词提取模型[J].中国战略新兴产业,2017(10X):113-113. 被引量：1
3丁连红,孙斌,张宏伟.基于知识图谱扩展的短文本分类方法[J].情报工程,2018,4(5):38-46. 被引量：5
4杜维新,张华.温带山地植物区系比较分析[J].国土与自然资源研究,2018(6):88-90.
5王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
6朱晓燕.梅[J].中华诗词,2019,0(1):34-34.
7肖晓丽,吴瑶,周锡玲,廖卓凡.基于差分进化的两阶段文本特征选择算法[J].计算机工程,2019,45(2):303-309. 被引量：6
8邓飞,窦爱霞,王晓青.融合航空影像的震后机载LiDAR建筑物点云提取[J].遥感学报,2018,22(S1):224-232. 被引量：12
9殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
10吴飞,赵新灿,展鹏磊,关凌.自适应邻域选择的FPFH特征提取算法[J].计算机科学,2019,46(2):266-270. 被引量：7

计算机技术与发展

2019年第2期

浏览历史

内容加载中请稍等...

一种基于MinHash的改进新闻文本聚类算法被引量：4

参考文献5

二级参考文献30

共引文献92

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于MinHash的改进新闻文本聚类算法 被引量：4

参考文献5

二级参考文献30

共引文献92

同被引文献32

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种基于MinHash的改进新闻文本聚类算法被引量：4