基于Apache AsterixDB的相似性查询

Similarity query Based on Apache AsterixDB

下载PDF

导出

摘要在许多应用程序中,例如数据清理,记录链接,Web搜索和文档分析,相似性查询处理变得越来越重要。该方法使用现有的运行时运算符来实现这种复杂的联接算法,而无须重新发明轮子。这样可以使系统自动受益于这些操作员的未来改进。该方法包括一种技术,该技术通过使用很大程度上以系统用户级查询语言表示的模板,在查询优化期间将相似性联接计划转换为基于操作员的有效物理计划;这项技术大大简化了这种转换规则的规范。我们使用并行大数据管理系统Apache AsterixDB来说明和验证我们的技术。我们使用并行计算集群上的几个大型真实数据集进行了一项实验研究,以评估相似性查询支持。 In many applications,such as data cleansing,logging links,Web searches,and document analysis,similarity query processing becomes increasingly important.The method USES existing runtime operators to implement this complex join algorithm without reinventing the wheel.This allows the system to automatically benefit from future improvements by these operators.The method includes a technique that converts the similarity join plan into an operator-based valid physical plan during query optimization by using templates that are largely expressed in the system user-level query language;This technique greatly simplifies the specification of this transformation rule.We use the parallel big data management system Apache AsterixDB to illustrate and validate our technology.We conducted an experimental study using several large real data sets on parallel computing clusters to evaluate similarity query support.

作者杜伍陈琳 DU Wu;CHEN Lin(Yangtze University,Jingzhou 434000,China)

机构地区长江大学

出处《电脑知识与技术》 2020年第5期3-4,15,共3页 Computer Knowledge and Technology

关键词大数据管理系统 APACHE AsterixDB 相似性查询并行数据库优化 Big data management system Apache AsterixDB Similarity query Parallel database To optimize

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1米琳.基于q-gram的字符串相似性查询研究[J].现代计算机,2014,20(4):12-16. 被引量：4
2蒋翠清,疏得友,段锐.基于用户时空相似性的位置推荐算法[J].计算机工程,2018,44(7):177-182. 被引量：9

二级参考文献10

1Jokinen P, Ukkonen E. Two Algorithms for Approximate String Matching in Static Texts[M]. Mathematical Foundations of Computer Science 1991. Springer Berlin Heidelberg, 1991:240-248.
2Burkhardt S, Crauser A, Ferragina P, et al. Q-gram Based Database Searching Using a Suffix Array ( QUASAR ) [C]. Proceedings of the Third Annual International Conference on Computational Molecular Biology. ACM,1999:77-83.
3Gravano L, Ipeirotis P G, Jagadish H V, et al. Approximate String Joins in a Database(almost)for Free[C]. VLDB. 2001, 1:491-500.
4Li C, Lu J, Lu Y. Efficient Merging and Filtering Algorithms for Approximate String Searches[C]. Data Engineering, 2008. ICDE 2008. IEEE 24th International Conference on. IEEE, 2008:257-266.
5Xiao C, Wang W, Lin X. Ed-join: an Efficient Algorithm for Similarity Joins with Edit Distance Constraints[J]. Proceedings of the VLDB Endowment, 2008, 1 (1): 933-9d4.
6Sutinen E, Tarhio J. On Using Q-gram Locations in Approximate String Matching[M]. Algorithms--ESA'95. Springer Berlin Heidelberg, 1995:327-340.
7Califano A, Rigoutsos I. FLASH: A Fast Look-Up Algorithm for String Homology[C]. Computer Vision and Pattern Recognition, 1993. Proceedings CVPR'93., 1993 IEEE Computer Society Conference on. IEEE, 1993:353-359.
8Kernighan B W, Ritchie D M. The C Programming Language[M]. Englewood Cliffs: Prentice-Hall, 1988.
9任看看,钱雪忠.协同过滤算法中的用户相似性度量方法研究[J].计算机工程,2015,41(8):18-22. 被引量：25
10任星怡,宋美娜,宋俊德.基于用户签到行为的兴趣点推荐[J].计算机学报,2017,40(1):28-51. 被引量：49

共引文献11

1杨航,侯琼煌.基于Q-Gram的数据库模式匹配算法[J].信息技术,2015,39(8):139-142. 被引量：1
2刘永海.一种基于PowerBuilder环境字符串相似度算法[J].数字技术与应用,2017,0(3):140-141.
3刘素艳,刘元安,吴帆,范文浩.物联网中基于相似性计算的传感器搜索[J].电子与信息学报,2018,40(12):3020-3027. 被引量：7
4丁勇,王翔,蒋翠清.基于Location2vec的地点推荐算法[J].计算机工程,2019,45(7):212-216. 被引量：1
5于长永,李淼淼,赵楚,马海涛.一种新颖的编辑距离限制下的相似性确认算法[J].东北大学学报（自然科学版）,2019,40(11):1543-1548. 被引量：2
6谢修娟,莫凌飞,李香菊,陈永.融合位置信息和物品流行度的协同过滤算法[J].河海大学学报（自然科学版）,2019,47(6):568-573. 被引量：3
7包玄,陈红梅,肖清.融入时间的兴趣点协同推荐算法[J].计算机应用,2021,41(8):2406-2411. 被引量：5
8刘治国,蔡文珠,李运琪,潘成胜.基于序列统计的未知无线协议特征提取方法[J].计算机工程,2021,47(11):192-197.
9李楠.基于大数据平台的大学就业信息管理系统[J].电子设计工程,2022,30(7):42-46. 被引量：4
10余丽萍,朱亮,刘啸威.基于语义分析的位置服务推荐方法研究[J].现代电子技术,2022,45(9):98-104.

1陈军晓,李中升,刘逸敏,李秋虹,汪卫.基于MapReduce的时间序列索引与批量查询技术[J].计算机工程,2019,45(11):47-53. 被引量：4
2陈志勇.智能电网的大数据处理技术应用[J].集成电路应用,2020,37(2):78-79. 被引量：5
3楼浩斌.BIM技术在建筑装饰设计课程教学中的应用[J].科学咨询,2019,0(42):181-181. 被引量：2
4刘磊.基于大数据的政府审计全覆盖路径设计与方法——以MPP及Hadoop技术路线为例[J].许昌学院学报,2020,39(1):98-102. 被引量：3
5李薇.不动产数据整合技术路线及相关问题解决措施研究[J].科技创新导报,2019,16(33):174-175. 被引量：1
6姚栋方,吴瀛,罗磊,阎帅,武文广,丁宏.基于深度学习的短期电力负荷预测[J].国外电子测量技术,2020,39(1):44-48. 被引量：18
7李彪,杨宝臣.上交所国债收益率的聚类结构分析[J].北京理工大学学报（社会科学版）,2006,8(1):74-76. 被引量：3
8陈使明,王以松.一种鲁棒的离线笔迹鉴别方法[J].自动化学报,2020,46(1):108-116. 被引量：6
9马倩倩,孙东旭,石金铭,何贤英,翟运开.基于支持向量机与XGboost的成年人群肿瘤患病风险预测研究[J].中国全科医学,2020,23(12):1486-1491. 被引量：15
10张鹏,付洁,赵世伟.民机计划维修任务组包优化模型[J].中国民航大学学报,2020,38(1):24-28. 被引量：2

电脑知识与技术

2020年第5期

浏览历史

内容加载中请稍等...

基于Apache AsterixDB的相似性查询

参考文献2

二级参考文献10

共引文献11

相关作者

相关机构

相关主题

浏览历史