一种有效的量化交易数据相似性搜索方法被引量：26

An Efficient Method for Similarity Search on Quantitative Transaction Data

下载PDF

导出

摘要量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题提出了一个新的相似性度量函数Hsim() ,这个度量函数可以较好地克服Lp 等传统的距离函数在高维空间中的缺点 ,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去结合量化交易数据的特点 ,构造了定义在该函数上的相似性索引结构 ,并对建立在该索引结构上的相似性查询方法进行了阐述实验表明 ,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率。 The difference of the quantitative transaction data from the common transaction data is that the value of each dimension is quantitative, not binary. The study of the efficient method for similarity search on the quantitative transaction data is very important and challenging. A new function Hsim() is presented to measure the proximity of objects in high dimensional spaces. The function can overcome the shortcoming of L p-norm and other distance functions, and adapt to binary and numerical data. According to the characteristic of the quantitative transaction data, a similarity indexing structure based on Hsim() is constructed, and an algorithm for similarity search on quantitative transaction data is also described. Experiments demonstrate that this method has very good pruning efficiency for similarity search on the quantitative transaction data, so it can greatly speed the similarity search.

作者杨风召朱扬勇

机构地区南京财经大学电子商务实验室复旦大学计算机与信息技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第2期361-368,共8页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 1AA113 181) 上海市科学技术发展基金项目 (0151150 10) 信息产业部科研试制计划基金项目 ( 0 1XK3 10 0 12 )

关键词相似性搜索高维数据距离函数量化交易数据索引结构 similarity search high dimensional data distance function quantitative transaction data index structure

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1A Guttman. R-Tree: A dynamic index structure for spatial searching. The ACM SIGMOD Int'l Conf on Management of Data, Boston, MA, 1984
2T Sellis, N Roussopoulos, C Faloutsos. The R+ tree: A dynamic index for multidimensional objects. The 13th Int'l Conf on Very Large Data Bases, Brighton, England, 1987
3N Beckman, H-P Kriegel, R Schneider et al. The R*-tree: An efficient and robust method for points and rectangles. The ACM SIGMOD Int'l Conf on Management of Data, Atlantic City, NJ, 1990
4N Katayama, S Satoh. The SR-tree: An index structure for high dimensional nearest neighbor queries. The ACM SIGMOD Int'l Conf on Management of Data, Tucson, Arizona, USA, 1997
5S Berchtold, D Keim, H-P Kriegel. The X-tree: An index structure for high-dimensional data. The 22nd Int'l Conf on Very Large Data Bases, Bombay, India, 1996
6S Berchtold, C Bhm, H V Jagadish et al. Independent quantization: An index compression technique for high-dimensional data spaces. The 16th Int'l Conf on Data Engineering, San Diego, California, USA, 2000
7Y Sakurai, M Yoshikawa, S Uemura et al. The A-tree: An index structure for high-dimensional spaces using relative approximation. The 26th Int'l Conf on Very Large Data Bases, Cairo, Egypt, 2000
8R Weber, H J Scheck, S Blott. A quantitative analysis and performance study for similarity search methods in high dimensional spaces. The 24th Int'l Conf on Very Large Data Bases, New York City, New York, USA, 1998
9K Beyer, J Goldstein, R Ramakrishnan et al. When is nearest neighbors meaningful? The 7th Int'l Conf on Database Theory, Jerusalem, Israel, 1999
10C C Aggarwal, A Hinneburg, D Keim. On the surprising behavior of distance metrics in high dimensional space. The 8th Int'l Conf on Database Theory, London, UK, 2001

同被引文献268

1田心如,白莉娜,唐红昇,陈广昌,王伟丽.江苏省大雾持续时间及相关要素的周末效应[J].环境科学与技术,2012,35(S2):117-122. 被引量：10
2王家耀,魏海平,成毅,熊自明.时空GIS的研究与进展[J].海洋测绘,2004,24(5):1-4. 被引量：67
3刘纪平,汪宏斌,汪诚波,周洞汝.基于模糊最近邻的高维数据聚类[J].小型微型计算机系统,2005,26(2):261-263. 被引量：5
4肖志刚,王亮,田丽芳.小波分析在空间数据处理中的应用研究[J].测绘科学,2005,30(1):57-59. 被引量：13
5王忠礼,穆志纯,王修岩,弭洪涛.基于不变矩匹配的人耳识别[J].模式识别与人工智能,2004,17(4):502-505. 被引量：12
6孙凤杰,崔维新,张晋保,张旭东,肖学东.远程数字视频监控与图像识别技术在电力系统中的应用[J].电网技术,2005,29(5):81-84. 被引量：71
7吴江琴,高文.时间序列聚类算法及其在手势识别中的应用[J].模式识别与人工智能,2005,18(1):1-5. 被引量：4
8汪加才,文巨峰,陈奇,俞瑞钊.结构化模糊K-prototypes聚类算法[J].计算机科学,2005,32(5):155-158. 被引量：2
9孙凤杰,郭凤顺,范杰清,王铁滨.基于图像处理技术的表盘指针角度识别研究[J].中国电机工程学报,2005,25(16):73-78. 被引量：45
10张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60

引证文献26

1常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
2杨风召.一种基于特征表的协同过滤算法[J].计算机工程与应用,2007,43(6):184-187.
3汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
4谢朝霞,穆志纯,谢建军.用于多姿态人耳识别的局部线性嵌入及其改进算法[J].模式识别与人工智能,2009,22(3):427-432. 被引量：1
5陈湘涛,李明亮,陈玉娟.基于时间序列相似性聚类的应用研究综述[J].计算机工程与设计,2010,31(3):577-581. 被引量：27
6谢明霞,郭建忠,张海波,陈科.高维数据相似性度量方法研究[J].计算机工程与科学,2010,32(5):92-96. 被引量：18
7谢明霞,郭建忠,陈科.改进k中值聚类及其应用[J].烟台大学学报（自然科学与工程版）,2010,23(3):217-222. 被引量：1
8ZHAO Yaolong,CUI Bingliang,MURAYAMA Yuji.Characteristics of neighborhood interaction in urban land-use changes： A comparative study between three metropolitan areas of Japan[J].Journal of Geographical Sciences,2011,21(1):65-78. 被引量：5
9王家耀,谢明霞,郭建忠,陈科.基于相似性保持和特征变换的高维数据聚类改进算法[J].测绘学报,2011,40(3):269-275. 被引量：8
10谢明霞,王家耀,郭建忠,陈科.不等距划分的高维相似性度量方法研究[J].武汉大学学报（信息科学版）,2012,37(7):780-783. 被引量：3

二级引证文献277

1马鹏,樊艳芳.基于深度迁移学习的小样本智能变电站电力设备部件检测[J].电网技术,2020,44(3):1148-1159. 被引量：86
2Mei Lu,Fanzhang Li.Survey on Lie Group Machine Learning[J].Big Data Mining and Analytics,2020,3(4):235-258. 被引量：6
3蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：215
4杨晟,李学军,刘涛,王珏.高分辨率遥感影像匹配中的相似性度量综述[J].测绘与空间地理信息,2013,36(5):16-21. 被引量：2
5王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
6陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
7孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
8刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
9杨瑞龙,朱庆生,谢洪涛.快速混合Web文档聚类[J].计算机工程与应用,2010,46(22):12-15. 被引量：3
10王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.

1王晓阳,张洪渊,沈良忠,池万乐.基于相似性度量的高维数据聚类算法研究[J].计算机技术与发展,2013,23(5):30-33. 被引量：13
2邹波,黄保虎,张华.基于不同相似性度量的RFID指纹定位[J].计算机应用研究,2014,31(7):2062-2066.
3林守勋,郭玉钗,林宗楷.开放的VHDL模拟环境OVSE[J].计算机研究与发展,1995,32(9):52-59.
4王智莉,卜方玲.异构感知数据的动态适配接入方法[J].传感器与微系统,2015,34(6):13-16. 被引量：6
5洪俊峰,张启晨,杨军.嵌入式处理器中写缓冲电路的设计[J].现代电子技术,2007,30(22):27-29.
6谢明霞,郭建忠,张海波,陈科.高维数据相似性度量方法研究[J].计算机工程与科学,2010,32(5):92-96. 被引量：18
7孙肖林.基于各种快速Spice仿真器的Post-Layout寄生效应验证[J].现代电子技术,2007,30(22):69-71.

计算机研究与发展

2004年第2期

浏览历史

内容加载中请稍等...

一种有效的量化交易数据相似性搜索方法被引量：26

参考文献16

同被引文献268

引证文献26

二级引证文献277

相关作者

相关机构

相关主题

浏览历史

一种有效的量化交易数据相似性搜索方法 被引量：26

参考文献16

同被引文献268

引证文献26

二级引证文献277

相关作者

相关机构

相关主题

浏览历史

一种有效的量化交易数据相似性搜索方法被引量：26