自然语言到 SQL 的曙光:我们准备好了吗?

发布于:2024 年 10 月 08 日

各位读者,国庆假期已过,我们打工人要开启奋斗新征程了,今天小编也是刚上班假期综合征还没过去,就被抓过来读论文,还好我在假期没闲着,整理了几篇关于 NL2SQL 的最新论文跟大家分享。
在当今数字化时代,将用户的自然语言问题转换为SQL查询(nl2sql)对于降低访问关系数据库的门槛具有重要意义。随着大型语言模型(LLM)的出现,nl2sql任务的性能得到了显著提升,但这也引发了一个关键问题:我们是否已经完全准备好在生产环境中部署nl2sql模型?

一、nl2sql的发展历程与研究背景

(一)nl2sql方法的演进

![](https://img-blog.csdnimg.cn/img_convert/3c5e6e7d305329e8b1407ab51a167439.png)

从图1和图2可以看出,nl2sql 方法在过去二十年中经历了从 基于规则 的方法、基于神经网络 的方法、基于可调节预训练语言模型(PLM)到基于大型语言模型(LLM)的演变。早期的基于规则的方法如 NaLIR,依赖于预定义规则或语义解析器,适应性、可扩展性和泛化能力有限。随着神经网络的发展,出现了像IRNet这样的序列到序列方法。2017年左右,Transformer和Spider数据集的引入推动了基于PLM的方法的兴起,例如BERT和T5等模型在基准数据集上取得了很好的结果。而近年来,ChatGPT和GPT - 4等大型语言模型的出现使基于LLM的方法占据了主导地位。

(二)现有研究的局限性

1. **忽视使用场景:**现有评估通常报告在整个基准数据集(如 Spider)上的总体结果,缺乏对特定数据子集的详细比较。例如,没有根据不同的 SQL 特性或数据库领域进行区分,无法深入了解不同 nl2sql 模型对于特定 SQL 查询类型或特定领域场景的相对有效性。 2. **缺乏直接和全面的比较:**许多基于 LLM 和 PLM 的 nl2sql 解决方案没有在成熟的基准和定制数据集上进行系统的比较。 3. **对 nl2sql 设计空间的探索有限:**当前的 nl2sql 研究和实践在使用 LLM 和 PLM 模块探索 nl2sql 框架的设计空间方面存在局限,限制了我们对如何协同整合不同架构和功能模块以增强 nl2sql 解决方案的理解。

二、NL2SQL360 评估框架

(一)框架概述

![](https://img-blog.csdnimg.cn/img_convert/3267fb2253f336c1ae6c43a32c12a730.png)

为了解决上述问题,本文提出了一个多角度的nl2sql评估框架NL2SQL360,其框架如图4所示,包含六个核心组件。

  1. 基准数据集(Benchmark Datasts)
    维护了广泛使用的基准数据集,如Spider、BIRD、Spider-Realistic、Dr.Spider、KaggleDBQA、WikiSQL 等。
  2. 模型库(Model Zoo)
    包含了在 Spider 和 BIRD 排行榜上的一系列有竞争力的开源 nl2sql 模型,主要包括基于 LLM 和基于 PLM 的方法。
  3. 数据集过滤(Dataset Filter)

引入了数据集过滤机制,可根据不同标准将测试数据集分离为更有针对性的子集。例如:
- SQL 复杂性(SQL Complexity):从简单到复杂的查询进行分类,以评估nl2sql方法处理不同难度SQL的能力。
- SQL 特性(SQL Characteristics)
:针对主要使用特定功能(如JOIN操作、子查询或聚合函数)的SQL查询进行分类,评估系统处理不同SQL功能的能力。
- 数据领域(Data Domains):探索系统在不同数据领域(如金融、医疗保健和零售)的性能,评估领域特定的能力和潜在限制。
- 查询方差测试(Query Variance Testing)
:评估nl2sql系统在处理自然语言查询变化时的稳健性和灵活性。
4. 评估器(Evaluator)
利用日志数据自动生成定量评估,并以易于理解的表格或排行榜形式呈现。还提供可视化工具和仪表板进行交互式分析,方便用户比较不同维度的nl2sql解决方案。
5. 评估指标(Evaluation Metrics)
采用了一系列广泛接受的指标,包括执行准确率(Execution Accuracy,EX)和精确匹配准确率(Exact Match Accuracy,EM)来评估生成的 SQL 查询的有效性,使用有效效率得分(Valid Efficiency Score,VES)来衡量生成有效 SQL 查询的效率。此外,还提出了查询方差测试(Query Variance Testing)这一新指标,用于评估模型对不同形式的自然语言查询的适应能力。
6. 执行器和日志(Executor and Logs)
用户可以定制 nl2sq l模型的评估工作流程,设置超参数和指标等参数。测试床会自动在基准数据集和自定义子集上运行模型,并记录所有结果,这些日志为模型分析提供了详细的见解。

(二)实验设置与结果分析

1. **实验设置** 使用 Spider 和 BIRD 数据集的开发集作为实验数据集,包含1034和1534个(nl,sql)样本。评估了 13 种基于 LLM 和 7 种基于 PLM 的 nl2sql 方法,比较了不同方法在准确性、效率等方面的性能。 2. **准确性实验结果**![](https://img-blog.csdnimg.cn/img_convert/437c8b0797bb7f10f70f58135923a3d6.png)![](https://img-blog.csdnimg.cn/img_convert/fcab03e570607c57a0efcbe4896fe2dc.png) - **准确性与SQL复杂性** 从表3和表4可以看出,在不同难度的SQL子集上,基于LLM的方法在执行准确率(EX)指标上超过基于PLM的方法,而基于PLM的方法在精确匹配准确率(EM)指标上总体表现更好。这表明微调是提高性能的重要策略,基于LLM的方法微调后在EX指标上表现最佳,基于PLM的方法在EM指标上表现最佳。 - **准确性与SQL特性**![](https://img-blog.csdnimg.cn/img_convert/c509ecf946e082d75c5c8c2fa0736283.png) - ![](https://img-blog.csdnimg.cn/img_convert/c4a431531310095c017ec41c3803db23.png) * **子查询(Subquery)**:如图5、图6和图7所示,所有方法在处理子查询时表现最差,但基于LLM的方法在有子查询的场景中总体上优于基于PLM的方法,尤其是使用 GPT-4 的方法表现更好,这表明模型的内在推理能力对处理子查询至关重要。 * **逻辑连接器(Logical Connector)**:在需要逻辑连接器的场景中,基于LLM 的方法优于基于PLM的方法。 * **JOIN操作**:在涉及JOIN操作的场景中,基于LLM的方法也表现出优势,将NatSQL作为中间表示可以降低预测JOIN操作的复杂性并可能提高模型性能。 * **ORDER BY**:在有ORDER BY子句的场景中,基于PLM和LLM的方法在不同数据集上的性能有所不同,一般来说基于LLM的方法具有更强的泛化能力。 - **查询方差测试**:![](https://img-blog.csdnimg.cn/img_convert/1fcdab48a5bd623eb44578beea556065.png)从图8可以看出,在查询方差测试(QVT)指标上,基于LLM和基于PLM的方法没有明显的胜者,但微调后的LLM通常比提示的LLM具有更高的QVT,这可能是由于微调后模型输入与特定数据分布对齐,减少了自然语言变化对性能的影响。 - **数据库领域适应性**:![](https://img-blog.csdnimg.cn/img_convert/06ceee93625ea1c43fca79e2eff03a67.png)如图9所示,不同的 nl2sql 方法对不同领域表现出不同的偏向,基于LLM和基于PLM的方法之间没有明显的胜者。但微调后的方法在有更多训练数据库的领域表现更好,而提示的方法在训练数据库较少的领域表现出色,这表明微调过程中的领域内数据对特定领域的模型性能至关重要。 3. **效率实验结果** - **基于LLM的方法的经济性**:从表5可以看出,基于提示的LLM方法中,调用GPT-3.5-turbo的方法在执行准确率与平均成本的比率上更高,具有更高的成本效益。虽然 DAILSQL(SC)在执行准确率上有所提高,但成本也增加,降低了成本效益。 - **基于PLM的方法的效率**:从表6可以看出,随着模型大小的增加,GPU内存和延迟也会增加。不同的基于PLM的方法在执行准确率、延迟和GPU内存使用方面表现不同,模型选择应考虑延迟和硬件资源。

三、nl2sql设计空间探索与SuperSQL模型

(一)设计空间探索

1. **预处理(Pre - Processing)** 包括模式链接和数据库内容模块。模式链接将自然语言查询引用映射到数据库模式元素,增强跨领域通用性和复杂查询生成;数据库内容模块将查询条件与数据库内容对齐。 2. **提示策略(Prompting Strategy)** 分为 zero-shot和 few-shot策略。PLM-based方法通常使用 zero-shot,而 LLM-based 方法则有所不同,如C3SQL采用 zero-shot,DAILSQL和DINSQL使用 few-shot。 3. **SQL生成策略(SQL Generation Strategy)** 包括多步、解码策略和中间表示三个关键方面。不同的方法采用不同的策略,如PLM - based的RESDSQL采用“sql skeleton-sql”的多步策略,LLM-based的 DINSQL 采用“Subquery-sql”的多步策略;PLM-based 的 PICARD 采用强制 SQL 语法合规的解码策略,而 LLM-based 方法缺乏这种解码级别的限制;一些方法采用 NatSQL 作为中间表示来解决自然语言到 SQL 翻译的不匹配问题。 4. **后处理(Post - Processing)** 包括自我纠正、自我一致性、执行引导的SQL选择器和 N-best重排器等策略。

(二)NL2SQL360 - AAS 算法与 SuperSQL 模型

1. **NL2SQL360 - AAS 算法** 受到神经架构搜索(NAS)算法的启发,在 NL2SQL360 框架内设计了 nl2sql 自动化架构搜索算法(NL2SQL360 - AAS)。该算法包括初始化、个体选择、nl2sql 模块交换和 nl2sql 模块突变四个主要步骤,旨在自动探索 nl2sql 解决方案的预定义设计空间,以找到更好的 nl2sql 个体。 2. **SuperSQL模型** 通过 NL2SQL360 - AAS 算法在 Spider 开发集上搜索得到的 SuperSQL 模型,其组成如下: - **预处理**:采用 RESDSQL 的模式链接和 BRIDGE v2 的数据库内容模块。 - **提示**:使用 DAILSQL的 Few-shot模块按相似性选择上下文示例。 - **SQL生成**:采用OpenAI的贪婪解码策略,不使用多步或NatSQL。 - **后处理**:采用DAILSQL的自我一致性策略。 SuperSQL在Spider和BIRD测试集上分别取得了87.0%和62.66%的执行准确率,在执行准确率、效率和经济性等方面均表现出色,优于其设计空间内的所有基线模型。

四、研究机会与未来方向

(一)提高nl2sql方法的可信度

1. **处理模糊的自然语言查询** 可以探索查询重写器自动优化自然语言查询,以及查询自动完成帮助用户制定查询的策略。 2. **解释nl2sql解决方案** 开发nl2sql调试器检测错误的SQL查询,以及SQL和查询结果解释方法帮助用户评估结果是否符合要求。

(二)开发具有成本效益的nl2sql方法

基于LLM的nl2sql方法在令牌消耗方面成本较高,探索模块化nl2sql解决方案和多智能体框架,结合LLM优化准确性和效率是未来的研究方向。

(三)自适应训练数据生成

nl2sql方法的有效性很大程度上取决于训练数据的质量和覆盖范围,动态生成(nl,sql)对使用模型评估反馈是一个有前途的研究方向,可以解决领域适应问题并确保训练数据的多样性和高质量。

五、结论

本文提出了NL2SQL360评估框架,从多个角度对nl2sql方法进行了评估和分析。通过实验研究得出了一系列关于nl2sql方法性能的新发现,并利用NL2SQL360探索了nl2sql解决方案的设计空间,自动搜索得到了SuperSQL模型。SuperSQL模型在不同的数据集和测试指标上表现出色,为nl2sql任务提供了一种有效的解决方案。同时,本文还指出了未来nl2sql研究的几个方向,包括提高方法的可信度、开发成本效益高的方法和自适应训练数据生成等。这些研究成果为nl2sql领域的进一步发展提供了重要的参考和指导。

:::info
论文地址:https://arxiv.org/pdf/2406.01265

The Dawn of Natural Language to SQL: Are We Fully Ready?

代码地址:https://github.com/HKUSTDial/NL2SQL360

原文链接:https://mp.weixin.qq.com/s/BCxFZ2EV1xh-VlYYyR1FgQ

:::

希望这篇文章能让您对论文的核心内容有更深入的了解,如果您有任何问题或建议,欢迎在评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1558042.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Spring与Spring Boot之间的区别

Spring和Spring Boot是用于开发Java企业应用的两个主流框架。虽然它们都属于Spring生态系统的一部分,但是它们各自有不同的使用场景和特点。 在本文中,我们将探讨Spring与Spring Boot之间的差异,针对他们之间特性的差异,做一个详…

李沐 X 动手学深度学习 深度学习介绍 学习笔记

x轴是不同的模式:符号学---概率模型---机器学习y轴是我们想做的东西(问题领域):感知(了解这是什么东西,能看见这个物体)---(做)推理(基于我看到的东西想象未来…

dvwa:暴力破解、命令注入、csrf全难度详解

暴力破解 easy模式 hydra -L /usr/share/wordlists/SecLists-master/Usernames/top-usernames-shortlist.txt -P /usr/share/wordlists/SecLists-master/Passwords/500-worst-passwords.txt 192.168.72.1 http-get-form "/dvwa/vulnerabilities/brute/:username^USER^&…

RED HAT断电重启报:“Failed to open \EFI\redhat\ grubx64.efi- Not Found“

RED HAT断电重启报错:"Failed to open \EFI\redhat\ grubx64.efi- Not Found"的解决办法。 问题:服务器断电重启导致,文件丢失无法正常启动操作系统。 解决方案: 1、准备一个Red Hat系统镜像或者启动盘挂载到服务器上&…

【AI学习】Mamba学习(五):《HiPPO: Recurrent Memory with Optimal Polynomial Projections》

SSM之后,就需要接着学习HiPPO了。 《HiPPO: Recurrent Memory with Optimal Polynomial Projections》 论文地址:https://arxiv.org/abs/2008.07669 摘要 从连续数据中学习的一个核心问题是,随着更多数据的处理,以增量方式表示累…

YOLO11训练自己的数据集(吸烟、跌倒行为检测)

YOLO11训练自己的数据集(吸烟、跌倒行为检测) 前言相关介绍前提条件实验环境安装环境项目地址LinuxWindows 使用YOLO11训练自己的数据集进行吸烟、跌倒行为检测准备数据进行训练进行预测进行验证 参考文献 前言 由于本人水平有限,难免出现错漏…

柯桥外语培训韩语学习考级韩语中TOPIK常用语法表达

-기 위해서는 -는 것이 좋다 为了......,......比较好 -는 것보다는 -는 것이 좋다 比起......,......比较好 -(으)려면 -아/어/야 한다 如果想......的话,得...... -왜냐하면 -기 때문이다 因为...... -그 이유는 -기 때문이다 理由是…

RabbitMQ快速入手

核心概念 界⾯上的导航栏共分6部分,这6部分分别是什么意思呢? 我们先看看RabbitMQ的⼯作流程: RabbitMQ是⼀个消息中间件,也是⼀个⽣产者消费者模型.它负责接收,存储并转发消息. Producer和Consumer Producer: ⽣产者,是RabbitMQServer的客⼾端,向RabbitMQ发送消息 Consume…

PDF处理技巧:Windows电脑如何选择合适的 PDF 编辑器

您可以阅读本文以了解用于在 PC 上编辑 PDF 的顶级免费软件,而无需花费任何费用即可轻松进行快速编辑、拆分、合并、注释、转换和共享您的 PDF。 PDF 或可移植文档文件是由 Adobe 创建的一种多功能文件格式。它可以帮助您轻松可靠地交换文档,无论相关方…

毕业设计 | ESP32-Album 开源 AIoT 智能云相框,支持 Wi-Fi 无线图传,平替小米电子相册...

数码相框主要由三个部分组成: LCD液晶显示屏,ESP32主控板和外框 ESP32-Album 数码相框 ESP32-Album 数码相框是一款基于乐鑫 ESP32-P4 芯片开发的高性能电子相册。凭借ESP32-P4 强大的图像及音视频处理能力,该设备能够实现照片、视频和音乐的播放&#x…

ELK中L的filebeat配置及使用(超详细)

上一次讲解了如何在linux服务器上使用docker配置ELK中的E和K,这期着重讲解一下L怎么配置。 首先L在elk中指的是一个数据处理管道,可以从多种来源收集数据,进行处理和转换,然后将数据发送到 Elasticsearch。L的全称就是&#xff1…

【实践】快速学会使用阿里云消息队列RabbitMQ版

文章目录 1.场景简介2.实验架构3.实验流程3.创建实验资源4.创建阿里云AccessKey5.创建静态用户名密码6.创建Vhost、Exchange、Queue并绑定关系6.1、Vhost 的作用6.2、创建Vhost6.3、Exchange 的作用6.4、创建Exchange6.5、Queue 的作用6.6、创建Queue6.7、创建Exchange和Queue的…

鸿蒙--知乎评论

这里我们将采用组件化的思想进行开发 拆解组件 pages下,新建ZhiHu的文件pages下,新建components, 里面新建 HmNavBar和HmCommentItem components/HmNavBar.ets Entry Component struct HmNavBar {title: string 标题build() {Row() {// 返回键Row() {I…

Kubernetes(K8s)部署

主机名ip角色docker-harbor.revkarl.org172.25.254.250harbor仓库k8s-master172.25.254.100master,k8s集群控制节点k8s-node1172.25.254.10worker,k8s集群工作节点k8s-node2172.25.254.20worker,k8s集群工作节点 注意: 所有节点禁…

毕设分享 基于python的搜索引擎设计与实现

文章目录 0 简介1 课题简介2 系统设计实现2.1 总体设计2.2 搜索关键流程2.3 推荐算法2.4 数据流的实现 3 实现细节3.1 系统架构3.2 爬取大量网页数据3.3 中文分词3.4 相关度排序第1个排名算法:根据单词位置进行评分的函数第2个排名算法:根据单词频度进行…

国内知名人工智能AI大模型专家培训讲师唐兴通讲授AI办公应用人工智能在营销与销售过程中如何应用数字化赋能

AI如火如荼,对商业与社会影响很大。 目前企业广泛应用主要是在营销、销售方向,提升办公效率等方向。 从喧嚣的AI导入营销与销售初步阶段,那么当下,领先的组织与个人现在正在做什么呢? 如何让人性注入冷冰冰的AI&…

Android Studio New里面没有New Flutter Project

跟着Flutter中文网的配置教程,安装好了flutter,在Android studio里面也安装了dart和flutter的插件。重启后还是在FIle->New里面没有显示New Flutter Project。 反复卸载重装dart和flutter插件好几次,依然没有效果。 原来是没有把Android APK Suppor…

Keil 5 在编译代码时出现CPU占用过高、伴随出现keil卡顿未响应的问题解决办法

问题背景: 在使用keil 5编译程序的时候,经常出现CPU占用100%,并且伴随出现keil卡顿未响应情况。 如下图所示: 解决方法1: 修改keil的多线程编译设置,减少编译的线程数或者不使用多线程编译(编译…

大模型从入门到应用——LangChain:模型(Models)-[大型语言模型(LLMs):基础知识!

LangChain系列文章: 基础知识快速入门 安装与环境配置链(Chains)、代理(Agent:)和记忆(Memory)快速开发聊天模型 模型(Models) 基础知识大型语言模型(LLMs&a…

安装R和RStudio:开始你的数据分析之旅

数据分析是当今世界中一个非常热门的领域,而R语言是进行数据分析的强大工具之一。R是一种编程语言和软件环境,用于统计计算和图形表示。RStudio是一个集成开发环境(IDE),它为R语言提供了一个更加友好和高效的工作环境。…