AI大模型驱动数据分析:利用自然语言实现数据查询与可视化(1)

在当今AI驱动的时代,数据分析已成为各行各业不可或缺的能力。然而,传统的数据分析流程通常需要掌握SQL、数据处理和可视化等多项专业技能,这对非技术背景的业务人员来说是一个不小的挑战。

想象一下,当数据中心的负责人打开手机时,只需通过自然语言描述:“帮我分析过去24小时,各业务系统的告警量TOP-10,并以饼状图展示” 。系统便能自动完成从自然语言到SQL查询、数据处理和可视化的全过程。这省去需求提取、原型设计、开发、测试和上线的漫长过程,极大地提高了效率。从这个角度看,人类将进入一个更加高效和智能的时代。

所以,这次主要想跟大家分享如何运用AI大模型进行数据分析,过程中也会带一些示例,方便大家理解。话不多说,主要内容如下:

看看大语言模型的使用手册,会带相关测试案例让大家更好理解。主要内容如下:

哪些大模型可准确无误地生成SQL语句?

大模型实现的数据分析效果预览

AI应用场景测试 | 理解数据库模式 - schema信息

AI应用场景测试 | 提示词设计

一、哪些大模型可准确无误地生成SQL语句?

为了知道目前有哪些大模型可以快且准生成SQL语句,我们测试了以下大模型:

  • QWEN 2.5 - 72B

  • LLAMA 3 - 70B

  • QWEN 2.5 - 32B

  • Gemma2 27B

  • LLAMA 3.2 - 11B

为了支持这些大模型的运行,我的硬件配置如下:

  • 显卡:技嘉 4090

  • CPU:Intel i7 - 14代

  • 内存:DDR 6000 64GB

最终结果显示,参数量在70B以上的模型表现出色,能够准确无误地生成SQL语句。而其他三个模型在语言表达上需要更精确一些。在测试案例中,每一个大模型仅出现一个错误,说明输入的指令需要更贴近数据库模式(schema)的定义。

二、运用大模型实现数据分析效果预览

在看解决方案之前,我们先看一下自然语言大模型生成SQL的效果

上图为使用AI大模型生成的【按照不同的告警来源展示告警数量top10(饼状图)】

上图为使用AI大模型生成的【按照不同的告警来源展示告警数量top10(条形图)】

上图为使用AI大模型生成的【展示业务系统为企业服务总线的告警数量(表格)】

上图为使用AI大模型生成的【展示业务系统为“企业服务总线”的告警数量,告警发生日期为“2020-09-16”(表格)】

上图为使用AI大模型生成的【按天统计业务系统为“企业服务总线"的告警量】

上图为使用AI大模型生成的【按月统计系统为“上海网络”的告警量】

上图为使用AI大模型生成的【展示数据库中有多少不同的alertKPl】

上图为使用AI大模型生成的【展示数据库中独立的alertKPl】

上图为使用AI大模型生成的【展示数据库中指标为app_comp.ap-sys_succ_rate的告警,并按业务系统告警量top_10展示(表格)】

上图为使用AI大模型生成的【展示数据库中指标为app_comp.ap-sys_succ_rate的告警,并按业务系统告警量top_10展示(饼状图)】

三、AI应用场景测试 | 理解数据库模式 - schema信息

我们需要有一个界面能够配置数据库中的schema描述,schema描述对大模型非常有意义,主要体现在以下几个方面:

①结构理解

Schema描述了数据库的结构,包括表的名称、字段名称、数据类型、表之间的关系等。这些信息对于理解用户的自然语言查询至关重要,因为它帮助系统知道数据是如何组织的。

② 意图解析

在将自然语言转换为SQL查询时,系统需要识别用户查询中涉及的具体数据实体。Schema提供了这些实体的定义,使得系统可以准确地将自然语言中的术语映射到数据库中的表和字段。

③查询生成

Schema信息用于生成正确的SQL查询。系统需要知道如何在SQL中引用表和字段,以及如何构建JOIN操作来结合多个表的数据。

④错误检测

通过了解schema,系统可以检测并避免生成无效的SQL查询。例如,如果用户请求的字段在schema中不存在,系统会及时反馈错误信息。

⑤优化查询

Schema信息可以帮助系统优化生成的SQL查询。例如,系统可以利用索引信息来生成更高效的查询。

⑥用户交互

在一些高级的NL2SQL系统中,schema信息可以用于生成用户提示或建议,帮助用户更好地构建查询。

总结 :数据库的schema描述是NL2SQL系统理解和处理自然语言查询的基础,确保生成的SQL查询准确、有效并符合数据库的结构。

理解schema信息示例如下:

本例中我们使用运维领域的一张alertInfo表,来做示例说明如下,这是整个nl2sql的核心,如果涉及多张表以及表和表之间的关系,也参照类似的定义来表达即可:

四、 AI应用场景测试 | 提示词设计

在NL2SQL中,提示词的设计非常重要,通过它可以:

①引导模型生成

提示词用于引导大语言模型(如GPT-4)生成SQL查询。通过精心设计的提示词,模型可以更准确地理解用户的意图,并生成符合语法和语义的SQL语句。

②提高准确性

提示词可以帮助模型更好地解析自然语言中的复杂结构和模糊表达,从而提高生成SQL的准确性。例如,提示词可以明确要求模型识别特定的表、字段或条件。

③ 减少歧义

自然语言往往具有多义性,提示词可以帮助消除歧义,使模型更清晰地理解用户的查询意图。例如,通过提示词明确上下文或限定查询范围。

④增强模型能力

通过提示词,模型可以被引导去利用其内置的知识和推理能力,生成更复杂和优化的SQL查询。这对于处理复杂查询或多表JOIN操作尤为重要。

总结:提示词设计在NL2SQL系统中起到关键作用,它不仅影响SQL生成的准确性和效率,还直接关系到用户的使用体验和系统的实用性。

1.提示词设计参考如下

下面是我这里内置的默认提示词,主要用于关系型数据库查询,大家可以参考参考

 

2.提示词使用注意事项

  • "{schema_content}"即为我们在第一章中定义的schema说明,这是做为做的知识背景说明提供给大模型理解用的。

  • 示例提示词第10点,是最重要的一点,一般在设计这样的系统时,要避免对数据源进行修改,以免对数据造成破坏。

由于篇幅有限,本期的分享暂告一段落,下期将重点跟大家一起来看看【如何运用大模型进行数据可视化展示】以及【如何利用日志进行系统优化】这两块内容,感兴趣的朋友可以提前Mark一下~

注:文章来源见图片水印(布博士--擎创科技产品解决方案专家)

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

  行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/34323.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

蓝桥杯训练15——穿越雷区

from collections import deque def bfs(leiqu): n len(leiqu) # 定义四个方向:右、下、左、上 directions[(0,1),(0,-1),(1,0),(-1,0)] # 初始化访问标记矩阵 visited [[False] * n for _ in range(n)] queue deque() #…

【STL】用一张哈希表封装unordered_set和unordered_map

哈希表源代码 这里是使用开散列实现的哈希表&#xff0c;为了和库里的哈希表进行区分&#xff0c;我将哈希表放入到了命名空间中 //确保取余运算符两边是正整数&#xff0c;下标不能是负整数 template<class K> struct DefaultHashFunc {size_t operator()(const K&…

搜索二维矩阵 II

搜索二维矩阵 II 编写一个高效的算法来搜索 *m* x *n* 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性&#xff1a; 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9…

嵌入式入门Day24

数据结构Day5 树形结构相关概念二叉树相关概念二叉树的状态二叉树性质二叉树的存储二叉树根据已有序列推出树的结构练习 算法相关概念算法特性算法的设计要求时间复杂度排序算法冒泡排序&#xff08;改良版&#xff09;选择排序&#xff08;O(n^2)&#xff09;直接插入排序&…

百度网盘qzxing-master.zip

qzxing 这是一个针对 ZXing 条形码图像处理库的 Qt/QML 封装库。 支持以下类型的条形码解码&#xff1a; UPC-AUPC-EEAN-8EAN-13ITFCode 39Code 93Code 128&#xff08;GS1&#xff09;Codabar二维码数据矩阵Aztec&#xff08;测试版&#xff09;PDF 417 支持以下类型的条形…

Ping32与天锐绿盾加密软件对比:哪款防泄密软件适合您的企业?

企业数据泄漏事故层出不穷&#xff0c;为了有效防止机密信息的泄露&#xff0c;选择一款合适的防泄密软件显得尤为重要。Ping32和天锐绿盾加密软件都是市场上比较受欢迎的防泄密工具&#xff0c;那么它们各自的优势和差异是什么呢&#xff1f;让我们一起来了解。 1. 安全性&…

PDF拆分之怎么对批量的PDF文件进行分割-免费PDF编辑工具分享

>>更多PDF文件处理应用技巧请前往 96缔盟PDF处理器 主页 查阅&#xff01; ——————————————————————————————————————— 当然了&#xff0c;单个文件或者其他任意的文件个数的拆分也是支持的&#xff01; 序言 我之前的文章也有…

简易url解码器(定义python单行函数工具)

被%编码的url如同天书&#xff0c;自拟一个单行函数解析还原&#xff0c;方便相认。 (笔记模板由python脚本于2024年12月05日 15:14:17创建&#xff0c;本篇笔记适合学习Url的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&…

JavaWeb项目打包、部署至Tomcat并启动的全程指南(图文详解)

前言 我们想要部署一个javaWeb项目到tomcat上&#xff0c;需要了解一些概念 什么是tomcat&#xff1f; Tomcat 是 Apache 软件基金会&#xff08;Apache Software Foundation&#xff09;下的一个开源项目&#xff0c;主要用于实现 Java Servlet、JavaServer Pages&#xff08;…

【笔记2-5】ESP32:freertos消息队列

主要参考b站宸芯IOT老师的视频&#xff0c;记录自己的笔记&#xff0c;老师讲的主要是linux环境&#xff0c;但配置过程实在太多问题&#xff0c;就直接用windows环境了&#xff0c;老师也有讲一些windows的操作&#xff0c;只要代码会写&#xff0c;操作都还好&#xff0c;开发…

亚马逊云科技大语言模型加速OCR应用场景发展

目录 前言Amazon Bedrock关于OCR解决方案Amazon Bedrock进行OCR关键信息提取方案注册亚马逊账号API调用环境搭建 总结 前言 大语言模型是一种基于神经网络的自然语言处理技术&#xff0c;它能够学习和预测自然语言文本中的规律和模式&#xff0c;可以理解和生成自然语言的人工…

贪心算法 part03

文章参考来源代码随想录 134. 加油站 方法一分类讨论&#xff1a; 情况一&#xff1a;如果gas的总和小于cost总和&#xff0c;那么无论从哪里出发&#xff0c;一定是跑不了一圈的 情况二&#xff1a;rest[i] gas[i]-cost[i]为一天剩下的油&#xff0c;i从0开始计算累加到最…

【JAVA练习】力扣860.柠檬水找零

题目&#xff1a; 解题思路&#xff1a; 可能面临3种面额&#xff0c; 5美元&#xff0c;不找还&#xff0c;5美元钞票数量加110美元&#xff0c;找还5美元&#xff0c;5美元钞票数量减1&#xff0c;10美元钞票加120美元&#xff0c;找还15美元&#xff0c;分为一张10美元 一…

Telnet不安全?如何配置使用更安全的STelnet远程登录华为AR1000V路由器?

在上一篇文章中&#xff0c;我们介绍了如何配置一台全新的AR1000V&#xff0c;来实现通过Telnet远程登录设备&#xff08;如何配置使用Telnet远程登录华为AR1000V路由器&#xff1f;&#xff09;。其实&#xff0c;在之前的文章中&#xff0c;我们已经介绍过Telnet是一种不安全…

UE----Ios打包笔记

UE 打包 IOS 软件 1.前期准备 1.1. 首先我们需要 一台装有Xcode 的MAC笔记本&#xff08;知道开机密码 最好是空的笔记本 剩余内存要大 &#xff09; 1.2. 一台IOS手机 1.3. 一个申请了开发者账户的 Apple ID (苹果账号) 知晓账号与密码最好 因为很麻烦 1.4. UE 需要 的 兼…

计算机毕业设计Python轨道交通客流预测分析可视化 智慧交通 机器学习 深度学习 人工智能 爬虫 交通大数据

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

windows10电脑缺少dll文件的解决方案,系统缺少dll修复指南

在使用Windows 10操作系统时&#xff0c;有时会遇到由于缺少某些动态链接库&#xff08;Dynamic Link Library, 简称DLL&#xff09;文件而导致程序无法正常运行的问题。本指南将介绍几种解决此类问题的方法。 什么是DLL文件&#xff1f; DLL文件是Windows系统中的一种特殊类型…

并发编程(15)——基于同步方式的线程安全的栈和队列

文章目录 十四、day141. 线程安全的栈1.1 存在隐患的栈容器1.2 优化后的栈容器 2. 线程安全的队列2.1 基于智能指针的线程安全的队列2.2 不同互斥量管理队首、队尾的队列 十四、day14 在并发编程&#xff08;1&#xff09;并发编程&#xff08;5&#xff09;中&#xff0c;我们…

装箱问题的三种解法

有一个箱子容量为V&#xff08;正整数&#xff0c;0≤v≤20000&#xff09;&#xff0c;同时有n个物品&#xff08;0< n ≤30&#xff09;&#xff0c;每个物品有一个体积&#xff08;正整数&#xff09;。 要求n个物品中&#xff0c;任取若干个装入箱内&#xff0c;使箱子的…

万物可爬(以爬取浏览器井盖图片为例)

我们以爬取 井盖图片 这个链接中的图片为例&#xff1a; 点击F12 并选中其中一张图片 &#xff0c;得到它的信息。具体如下&#xff1a;我们可以编写对应的正则表达式&#xff1a; <img[^>]*src"(.*?)"[^>]*alt"井盖图片 的图像结果"[^>]*&g…