符号序列的概率向量聚类方法

Clustering method for symbolic sequences using probability vectors

下载PDF

导出

摘要针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,在有效提高聚类精度的同时降低聚类时间50%以上。 This paper proposed a representation model using probability vectors of symbolic sequences and a new clustering algorithm based on the model,to address the difficult problems in defining an efficient representation as well as a meaningful distance measure for symbolic sequences clustering. It proposed a probability-distribution-based representation method for symbolic sequences,on which first defined a new distance measure computed on the dissimilarity of the probability distributions,and also defined a clustering criterion for sequences clustering with the probability vector space model. Finally,it described a Kmeans-type algorithm for symbolic sequences clustering,and conducted a series of experiments on real-world sequence sets from various domains to evaluate its performance. The experimental results show that,on both gene sequences and speech sequences consisting of a relatively large number of symbols,the proposed method improves the clustering accuracy effectively with more than 50% decrease in the clustering time,compared with the existing algorithms using a subsequence-based representation model.

作者程铃钫陈黎飞 Cheng Lingfang;Chen Lifei(Jinshan College of Fujian Agriculture ＆ Forestry University,Fuzhou 350002,China;School of Mathematics ＆ Computer Science,Fujian Normal University,Fuzhou 350117,China)

机构地区福建农林大学金山学院福建师范大学数学与计算机科学学院

出处《计算机应用研究》 CSCD 北大核心 2018年第6期1676-1680,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61672157)

关键词数据聚类符号序列向量空间模型概率向量马尔可夫模型 data clustering symbolic sequence vector space model probability vector Markov model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1唐东明,朱清新,杨凡,陈科.一种有效的蛋白质序列聚类分析方法[J].软件学报,2011,22(8):1827-1837. 被引量：15
2陶华,唐旭清.蛋白质序列的聚类结构分析[J].生物信息学,2012,10(4):269-273. 被引量：4
3郭彦明,陈黎飞,郭躬德.基于隐马尔科夫模型的DNA序列分类方法[J].计算机系统应用,2014,23(7):24-30. 被引量：3
4郑宏珍,初佃辉,战德臣,徐晓飞.基于数据挖掘的符号序列聚类相似度量模型[J].计算机工程,2009,35(1):178-179. 被引量：3

二级参考文献52

1李刚成,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用,2009,29(3):836-838. 被引量：6
2Hsu Tsuen-Ho, Chu Kao-Ming, Chan Hei-Chun. The Fuzzy Clustering on Market Segment[C]//Proc. of the 9th International Conference on Fuzzy Systems. San Antonio, TX, USA: [s. n.], 2005 621-626.
3Hruschka H. Comparing Performance of Feed Forward Neural Nets and K-means for Cluster-based Market Segmentation[J]. European Journal of Operational Research, 2004, 114(2): 346-353.
4Kuo R J. Integration of Self-organizing Feature Map and K-means Algorithm for Market Segmentation[J]. Computers & Operations Research, 2002, 29(11): 1475-1493.
5Duda R O, Hart P E. Pattern Classification[M]. 2nd ed. New York: John Wiley & Son Inc., 2003: 12-16.
6Zhou Zhun, Yang Bing- ru, Hou Wei. Association classification algorithm based on structure sequence in protein secondary structure prediction[ J]. Expert Systems with Applications, 2010,37 (9) : 6381 - 6389.
7Sadowski MI, Jones DT. The sequence - structure relationship and protein function prediction [ J]. Current Opinion in Structural Biology, 2009, 19(3) : 357 -362.
8Hwang I T, Lim H K, Song H Y. Cloning and characterization of a xylanase, KRICT PX1 from the strain Paenibacillus sp. HPL-001 [J]. Biotechnology Advances, 2010,28(5): 594 - 601.
9Joshi C, Khare S K. Utilization of deoiled Jatropha curcas seed cake for production of xylanase from thermophilic Scytalidium ther- mophilum [ J]. Bio - resource Technology, 2011,102 ( 2 ) : 1722 - 1726.
10Cai Wei - ling, Chen Song - can, Zhang Dao - qiang. A simulta- neous learning framework for clustering and classification [ J ]. Pattern Recognition, 2009, 42 (7) : 1248 - 1259.

共引文献21

1张德才.数据挖掘技术及其在岩土工程中研究进展[J].山西建筑,2010,36(29):91-92.
2游源,齐欢,胡祥恩.基于多项式加工树模型的列联表数据挖掘[J].计算机工程,2011,37(11):10-12. 被引量：4
3王丽敏,姬强,韩旭明,黄娜.基于奇异值分解的自适应近邻传播聚类算法[J].吉林大学学报（理学版）,2014,52(4):753-757. 被引量：5
4倪志伟,荆婷婷,倪丽萍.一种近邻传播的层次优化算法[J].计算机科学,2015,42(3):195-200. 被引量：4
5梁启浩,李阳,唐旭清.基于功率谱的流感病毒蛋白质序列结构分析[J].病毒学报,2017,33(3):313-319. 被引量：1
6赵自阳,李王成,王霞,刘学智,崔婷婷,程载恒,王帅,陶明华.基于蚁群算法的我国水资源短缺风险聚类分析[J].节水灌溉,2017(7):70-76. 被引量：7
7万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
8孙启航,杨鹤标.基于编辑距离的序列聚类算法的优化[J].计算机技术与发展,2018,28(3):109-113. 被引量：1
9李琳丹,许雅玺,张榆薪,刘坤.基于聚类算法的飞行航迹分析[J].现代计算机,2018,24(19):3-7. 被引量：1
10丁玉连,雷秀娟,代才.模拟鸽子优化过程的蛋白质复合物识别算法[J].计算机科学与探索,2017,11(8):1279-1287. 被引量：2

1李茹,马淑晖,张虎,郭少茹.阅读理解答案预测[J].山西大学学报（自然科学版）,2017,40(4):763-770. 被引量：4
2赵洪,宣士斌.人体运动视频关键帧优化及行为识别[J].图学学报,2018,39(3):463-469. 被引量：5
3官群,赵建蓉,姚茹.语言习得的统计学习探究——来自普通人群和特殊人群的证据[J].中国特殊教育,2018(3):78-82. 被引量：2
4钱立军,荆红娟,邱利宏.基于随机模型预测控制的四驱混合动力汽车能量管理[J].中国机械工程,2018,29(11):1342-1348. 被引量：23
5魏霖静,宁璐璐,郭斌,侯振兴.大数据中基于熵加权的稀疏分数特征选择聚类算法[J].计算机应用研究,2018,35(8):2293-2294. 被引量：5
6MUGABOWINDEKWE Maurice,MUYIZERE Aline,LI Fadong,QIAO Yunfeng,RWANYIZIRI Gaspard.Application of Multi-Temporal MODIS NDVI Data to Assess Practiced Maize Calendars in Rwanda[J].Journal of Resources and Ecology,2018,9(3):273-280. 被引量：1
7刘振华,任艺鹏,叶忠勤,余虎,王述红,修占国.基于小波包分解-模糊神经网络的混凝土路面路基沉降预测[J].混凝土与水泥制品,2018(6):81-84. 被引量：3
8郭嘉,郭晓峰,沈建京.关于大数据中用户资源信息提取仿真研究[J].计算机仿真,2018,35(7):414-417. 被引量：10
9高永琳,程晓荣.区块链中的自私挖掘研究与分析[J].计算机工程与应用,2018,54(15):62-66. 被引量：2
10宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报（自然科学版）,2018,33(2):73-80. 被引量：2

计算机应用研究

2018年第6期

浏览历史

内容加载中请稍等...

符号序列的概率向量聚类方法

参考文献4

二级参考文献52

共引文献21

相关作者

相关机构

相关主题

浏览历史