基于规范割的文本超图聚类被引量：1

Text Hypergraph Clustering Based on Normalized Cut

下载PDF

导出

摘要超图聚类方法是目前主流聚类方法之一.它的经典版本出现在超大规模集成电路研究领域.近年来,它的各种改进版本被提出并广泛应用于机器视觉领域.例如,在图像聚类和运动分割方面,它的各种版本常有较好的表现.本文将超图聚类方法引入文本聚类领域.首先,根据文本数据高度稀疏的特点,采用SVD(或PCA)对其进行降维;其次,采用基于大超边的超图规范割聚类对文本的低维投影进行聚类;最后,采用聚类准确率指标对聚类进行评价.在两个文本数据集的实验中,基于超图规范割聚类取得了比传统的k均值聚类和层次聚类更好的聚类表现. Hypergraph based clustering is one of the most popolar clustering methods at present.Its typical version is proposed firstly in the field of Very Large Scale Integration Circuit,while its various generalized versions are applied conprehensively in machine vision in recent years.For example,in image clustering and motion segmentation,its various versions often achieve good performance.In this paper,hypergraph baded clustering is introuduced to cluster text.Firstly,based on high sparsity of text data,we use SVD or PCA to decrease their dimensions,then we cluster the lower dimensional text using hypergraph normalized cut clustering in the large hyperedge case;finally,we evaluate the clustering perfomance using the index of accuracy.In the experiments on two text datasets,the method based on hypergrah normalized cut gets the best clustering accuracy comparing to the typical k means method and the hierarchical clustering method.

作者檀敬东 TAN Jing-dong(School of Mathematics,Hefei University of Technology,Hefei 230009, China)

机构地区合肥工业大学数学学院

出处《大学数学》 2017年第6期33-36,共4页 College Mathematics

基金国家自然科学基金项目(61503115)

关键词超图规范割文本聚类随机聚类模型 hypergraph normalized cut text clustering random cluster models

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1檀敬东,苏雅茹,王儒敬.基于PCA扩展的判别性特征融合[J].模式识别与人工智能,2012,25(2):305-312. 被引量：4

二级参考文献12

1Hughes N P,Tarassenko L. Novel Signal Shape Descriptors through Wavelet Transforms and Dimensionality Reduction[J].Proceedings of Spie,2003.763-773.
2王珏;周志华;周傲英.机器学习及其应用[M]北京:清华大学出版社,2006.
3Li Haifeng,Jiang Tao,Zhang Keshu. Efficient and Robust Feature Fusion by Maximum Margin Criterion[J].IEEE Transactions on Neural Networks,2006,(01):157-165.
4Li Bo,Zheng Chunhou,Huang Deshuang. Locally Linear Discriminant Embedding:An Efficient Method for Face Recognition[J].Pattern Recognition,2008,(12):3813-3821.
5Roweis S T. Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science,2000,(5500):2323-2326.doi:10.1126/science.290.5500.2323.
6Shawe-Taylor J,Cristianini N. Kernel Methods for Pattern Analysis[M].Cambridge:Cambridge University Press,2004.
7Chatfield C,Collins A J. Introduction to Multivariate Analysis[M].London:Chapman and Hall,1980.
8Zhang Huaping,Yu Hongkui,Xiong Deyi. HHMM-Based Chinese Lexical Analyzer ICTCLAS[A].Sapporo,Japan,2003.184-187.
9Salton G,McGill M J. Introduction to Modem Information Retrieval[M].New York,USA:McGraw-Hill,1986.
10Barshan E,Ghodsi A,Azimifar Z. Supervised Principal Component Analysis:Visualization,Classification and Regression on Subspaces and Submanifolds[J].Pattern Recognition,2011,(07):1357-1371.

共引文献3

1曾羽琚.基于双曲方程特征分解的水生态数据挖掘[J].控制工程,2014,21(4):563-566. 被引量：1
2臧飞,杨沁梅.基于稀疏邻域的特征融合算法及其应用[J].计算机工程,2014,40(8):163-167. 被引量：1
3李勃昊,张连海,董桂芬,郑永军.基于后验概率特征的改进无监督语音样例检测[J].信息工程大学学报,2015,16(4):449-453.

同被引文献3

1蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：187
2陈新泉,周灵晶,刘耀中.聚类算法研究综述[J].集成技术,2017,6(3):41-49. 被引量：27
3邹旭华,叶晓东,谭治英,陆凯.基于改进的相似度度量的谱聚类图像分割方法[J].计算机工程与应用,2017,53(13):16-20. 被引量：4

引证文献1

1杜婷婷,文国秋,吴林,童涛,谭马龙.基于局部协方差矩阵的谱聚类算法[J].计算机工程与应用,2019,55(14):148-154. 被引量：7

二级引证文献7

1胡卓娅,翁健.基于人工蜂群算法的自适应谱聚类算法[J].重庆理工大学学报（自然科学）,2020,34(3):137-144. 被引量：6
2蒋忆睿,裴洋,陈磊,王文乐,代江艳,易玉根.多局部约束自表示的谱聚类算法[J].计算机工程与应用,2020,56(11):172-178. 被引量：1
3张要,马盈仓,杨小飞,朱恒东,杨婷.基于L_(2,1)-范数距离的约束相似矩阵的聚类算法[J].计算机工程与设计,2021,42(3):726-733. 被引量：2
4郭奕杉,刘漫丹.基于时空轨迹数据的异常检测[J].计算机科学,2021,48(S01):213-219. 被引量：4
5熊晓军,张鑫,张本健,张正鹏,许志远,罗海龙.裂缝融合分析的窄方位叠前裂缝预测技术[J].石油地球物理勘探,2021,56(5):1150-1156. 被引量：5
6孙立君.基于标签传播的半监督聚类算法[J].信息与电脑,2021,33(18):42-44.
7李方硕,刘丽娜,程志炯,申杰,周一飞,熊思宇.基于改进谱聚类算法的低压户变关系识别[J].中国测试,2023,49(10):128-134.

1邹晓辉.LDA主题模型在文本聚类中的应用[J].数字技术与应用,2017,35(12):76-77. 被引量：2
2陈珊珊,杨婷婷.基于大数据的超图聚类分析和研究[J].电脑迷,2017(7):196-196. 被引量：1
3吴桂楠.基于模块化神经网络模型评价高校资产运行水平[J].高师理科学刊,2018,38(1):29-32.
4施维,王兴华,万巍,薛均,潘璀然,程显毅,董建成,王理.基于竞争学习的大规模微博文本聚类[J].江苏科技大学学报（自然科学版）,2017,31(6):768-773.
5曲靖野,陈震,郑彦宁.基于主题模型的科技报告文档聚类方法研究[J].图书情报工作,2018,62(4):113-120. 被引量：16
6杨健.汽车组合仪表通用校验仪的硬件设计[J].数码世界,2017,0(12):92-92.
7党燕,许志伟,刘利民,王宇,赵思远.基于Single-Pass算法的网络舆情文本增量聚类算法研究[J].内蒙古工业大学学报（自然科学版）,2017,36(5):364-372. 被引量：1
8胡世强,李江波,卢云军,钟亚军.基于规范的混凝土ABAQUS显式子程序开发及验证[J].建筑结构,2017,47(S2):556-560.
9申兴发,王兰迪.公共自行车系统的租赁点聚类与功能识别[J].计算机工程,2018,44(1):44-50. 被引量：2
10郭珊珊,张立,崔威,王志红,赵贝贝.基于混合聚类的电网企业服务类采购分类研究[J].物流科技,2018,41(1):25-29.

大学数学

2017年第6期

浏览历史

内容加载中请稍等...

基于规范割的文本超图聚类被引量：1

参考文献1

二级参考文献12

共引文献3

同被引文献3

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于规范割的文本超图聚类 被引量：1

参考文献1

二级参考文献12

共引文献3

同被引文献3

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于规范割的文本超图聚类被引量：1