高维数据中有效的相似性计算方法被引量：4

EFFICIENT SIMILARITY COMPUTING METHODS IN HIGH DIMENSIONAL DATA

下载PDF

导出

摘要相似性的计算是 CBR和 k- NN等 L azy L earning研究中十分关键的问题 .研究了降低相似性计算代价的方法 ,并以 k- NN为例 ,介绍了基于部分特征的相似性算法和基于投影的相似性算法 ,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率 .实验表明效率的提高是明显的 ,其中基于部分特征的 k- NN算法效率提高 2 6%～ 2 8% ,基于投影的 k- NN算法效率提高 48%～ 83% .作者已将该算法应用到工程中 . Similarity is a pivotal notion in research on lazy learning, such as case based reasoning and k NN (nearest neighbor). A method of how to decrease complexity of computing similarity is studied, and a similarity calculation algorithm is introduced, that is based on partial features and the similarity calculation algorithm that is based on projection. For briefness and clarity, they are described in the procedure of k NN: partial feature based k NN algorithm and projection based k NN algorithm. In the steps of acquiring distance, using only few features can improve efficiency. This improvement is remarkable in our experiment: the former increases about 26%~28%, and the latter increases from 48% to 83%. At the same time, those algorithms have been adapted in application successfully.

作者叶施仁游湘涛史忠植李晓黎

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2000年第10期1166-1172,共7页 Journal of Computer Research and Development

基金国家自然科学基金!(项目编号 6 980 3 0 10 ) 国家"八六三"高技术研究发展计划基金资助!(项目编号 86 3 -5 11-946 86 3 -818-0 7)

关键词相似性计算方法高维数据数据采掘数据库 similarity, data reduction, nearest neighbor, lazy learning, data mining, KDD

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1Aggarwal C C，Proc 3rd Pacific-Asia Conf onKnowledge Discovery in Database,PAKDD-99，1999年，13页
2史忠植，高级人工智能，1998年

同被引文献16

1杜利民,谢凌云,刘斌.HMM非特定人连续语音识别的嵌入式实现[J].电子与信息学报,2005,27(1):60-63. 被引量：6
2姚天任.数字语音处理[M].武汉:华中科技大学出版社.2003.
3Rabiner L, Juang B H. Fundamentals of speech recognition[M]. Washington: Prentice Hall, 1993.
4Huang X, Acero A, Hon H. Spoken language processing: a guide to theory, algorithm and system development[M]. 1st Edition. Washington:Prentiee Hall, 2001.
5Bocchieri E. Vector quantization for the efficient computation of continuous density likelihoods[C] // Proceedings of International Conference on Acoustics, Speech and Signal Processing (JCASSP). Minneapolis: [s.n.], 1993, 2: 692-695.
6Pellom B L, Sarikaya R, Hansen J H L. Fast likelihood computation techniques in nearest-neighbor based search for continuous speech recognition[J]. Signal Preessing Letters, 2001, 8(8): 221-224.
7Lee A, Kawahara T, Shikano K. Gaussian mixture selection using context-independent HMM[C] // Proceedings of International Conference on Acoustics,Speech and Signal Processing (ICASSP). Salt Lake City:[s.n.], 2001, 1: 69-72.
8Fritsch J, Rogina I. The bucket box intersection (BBI) algorithm for fast approximative evaluation of diagonal mixture gaussians[C]// Proceedings of International Conference on Acoustics, Speech and Signal Processing(ICASSP). [s. n. ], 1996: 837-840.
9Bocchieri E, Mak B K W. Subspace distribution clustering hidden markov model [ J]. IEEE Trans on Speech and Audio Processing, 2001, 9(3) : 264-275.
10国家电网公司.油浸式变压器(电抗器)状态检修导则[S].北京:中国电力出版社,2008.

引证文献4

1王钲旋,李海军,周春光.高维空间中用计算街区和棋盘距离的线性组合代替计算欧氏距离[J].小型微型计算机系统,2004,25(12):2120-2125. 被引量：6
2廖广锐,刘云,刘萍,薛永辉.基于统合高维对角协方差的CHMM语音识别[J].华中科技大学学报（自然科学版）,2009,37(12):16-19. 被引量：1
3赵小霞,苑津莎,刘磊,祖文超.基于CBR与RBR变压器检修策略专家系统设计[J].电子科技,2012,25(7):31-34. 被引量：4
4李炜,宋瀚涛.基于相似性的关联规则启发式发现[J].北京理工大学学报,2002,22(1):98-100. 被引量：2

二级引证文献13

1徐建民,成岳鹏,辛丽军.一种基于术语簇和关联规则的文档聚类方法[J].计算机工程与应用,2007,43(5):178-181.
2张志勇,施智平,石志伟,史忠植.基于轮廓的图像检索[J].软件学报,2008,19(9):2461-2470. 被引量：8
3梁萍,程伟.基于分水岭的粘连雾滴图像分割方法[J].重庆工学院学报（自然科学版）,2008,22(10):170-174. 被引量：5
4吴川,姜淑娟.启发式资源共享系统关联规则挖掘方法[J].计算机工程与设计,2008,29(21):5504-5506.
5林克正,王浩,辛晨.SIFT算法的相似性度量优化[J].哈尔滨理工大学学报,2012,17(3):78-82. 被引量：1
6葛志强.电力变压器检修策略[J].赤子,2013(13):234-234.
7师硕,于明,于洪丽,阎刚,薛翠红.基于相似性度量优化的SIFT图像匹配算法[J].电视技术,2013,37(17):148-150. 被引量：4
8高明磊,张钟江,姬波.基于特征变换的DGA诊断范例推理方法[J].计算机科学,2015,42(10):251-255. 被引量：2
9胡文超,周伟,关键.基于改进SIFT的遥感图像匹配方法[J].电光与控制,2017,24(5):36-39. 被引量：3
10张珂斐,郭江,陈红坤.基于全维度的电力变压器智能决策支持系统研究[J].电测与仪表,2019,56(13):33-38. 被引量：19

1袁国良,宋显水.基于WiFi和IMU结合的室内定位方法的研究[J].微型机与应用,2017,36(8):11-14. 被引量：2
2张玉芳,娄娟,李智星,熊忠阳.基于模糊关系的文本分类方法[J].计算机工程,2011,37(16):149-151. 被引量：2
3马立玲,徐发富,王军政.一种基于改进核Fisher的故障诊断方法[J].化工学报,2017,68(3):1041-1048. 被引量：9
4蔺晓栋,刘博,殷旭.数据挖掘在电子阅读精准营销中的应用[J].福建电脑,2015,31(12):125-126.
5魏孝章,豆增发.一种基于信息增益的K-NN改进算法[J].计算机工程与应用,2007,43(19):188-191. 被引量：9
6杜磊,杜星,宋擒豹.一种k-NN分类器k值自动选取方法[J].控制与决策,2013,28(7):1073-1077. 被引量：8
7毛一凡,饶世钧.对修正的K近邻域关联算法的仿真与可信性评估[J].计算机仿真,2004,21(7):11-13. 被引量：2
8华慧,伏玉琛,周小科.基于查询接口文本的Deep Web数据源分类[J].计算机工程,2010,36(12):66-68. 被引量：1
9王丹.基于K-NN算法的Web信息推荐方法研究[J].蚌埠学院学报,2014,3(4):8-10.
10张玉芳,谢娟,熊忠阳.一种结合云模型的文本分类方法[J].计算机工程与应用,2014,50(15):117-119. 被引量：3

计算机研究与发展

2000年第10期

浏览历史

内容加载中请稍等...

高维数据中有效的相似性计算方法被引量：4

参考文献2

同被引文献16

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

高维数据中有效的相似性计算方法 被引量：4

参考文献2

同被引文献16

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

高维数据中有效的相似性计算方法被引量：4