摘要
SQL生成(text-to-SQL)是自动化软件工程的重要应用之一,也是语义解析领域的研究热点.SQL生成根据输入的自然语言描述自动生成相应的SQL数据库查询语句,它允许非专业人员在不了解SQL语法的情况下访问数据库.随着大量SQL相关数据集的不断构造以及人工智能技术的卓越进步,SQL生成任务也得到了极大的发展.基于深度学习的SQL生成(deep learning-based text-to-SQL)能够利用大规模数据的优势,从已有数据中学习自然语言、数据库以及SQL语句的表示,并根据新的自然语言输入生成符合查询需求的SQL语句.相对于传统的SQL生成,基于深度学习的SQL生成具有高准确率、输入信息灵活和可迭代学习的优点.近年来,研究者在基于深度学习的SQL生成方面进行了一系列的研究,本文从SQL生成场景、数据集、模型结构和评估方法层面对现有研究进行分类综述.
Text-to-SQL is an important application of automation software engineering.It is also a research hotspot in the field of semantic parsing.The text-to-SQL task aims to automatically generate the SQL statement according to the natural language description.It allows nonprofessionals to access the database without understanding SQL syntax.With the development of large-scale text-to-SQL datasets and artificial intelligence technologies,the text-to-SQL task is also making great progress.Compared with the traditional text-to-SQL generation,the deep learning-based text-to-SQL has the advantages of high accuracy,flexibility,and iterative learning.In recent years,several studies have focused on SQL generation based on deep learning.This research summarizes existing works from the aspects of text-to-SQL scenarios,datasets,model structures,and evaluation methods.
作者
梁清源
朱琪豪
孙泽宇
张路
张文杰
熊英飞
梁广泰
郁莲
Qingyuan LIANG;Qihao ZHU;Zeyu SUN;Lu ZHANG*;Wenjie ZHANG;Yingfei XIONG;Guangtai LIANG;Lian YU(School of Software&Microelectronics,Peking University,Beijing 102600,China;Key Lab of High Con dence Software Technologies(PKU),Ministry of Education,Beijing 100871,China;Software Analysis Lab,Huawei Cloud,Beijing 100095,China)
出处
《中国科学:信息科学》
CSCD
北大核心
2022年第8期1363-1392,共30页
Scientia Sinica(Informationis)
基金
国家重点研发计划(批准号:2019YFE0198100)
香港特别行政区创新科技署(批准号:MHP/055/19)
国家自然科学基金(批准号:61872011)资助项目。