什么是流式SQL,它有什么用?

摘要

流式SQL是指采用用于编写数据库查询的相同的声明式SQL,而在快速变化的数据流上运行。

这很有用,因为。

  1. 当你能迅速采取行动时,数据往往更有价值
  2. 现有的从数据流中获得实时洞察力的工具过于复杂。

SQL的 "声明 "性质在解决第二点方面发挥了重要作用,因为它允许用户专注于他们想要什么,而让底层引擎担心如何完成。

在现实世界中,流式SQL被用来。

  • 启用新的内部和面向客户的洞察力、自动化和应用程序
  • 通过为关键指标提供单一的最新真相来源来提高商业智能数据的价值
  • 通过取代代码进行数据协调和转换来简化微服务

什么是流式SQL?

让我们先具体说明一下我们说的流处理和SQL是什么意思。
流(事件流)
流指的是像Kafka、Kinesis或Pulsar这样的消息中介,它们将数据作为事件或消息的连续流来处理。

事件流处理一切,从交易到用户在网站或移动应用程序上的行动、物联网传感器数据、服务器的指标,甚至是传统数据库上的活动,都通过 change data capture.
SQL
在流的背景下,SQL为用户提供了一种声明性语言,用于。

创建视图,将流中的原始数据连接、过滤和分组为更有用的输出(CREATE MATERIALIZED VIEW)
从源和视图中选择数据(SELECT)

注意:CREATE MATERIALIZED VIEW命令是流式SQL的核心概念。它来自于 databases来的,在那里它被用来提前计算视图,以防数据发生变化。在流媒体中,数据一直在变化,所以查询在维护成物化视图时往往更有用。

其他常见的SQL动词如INSERT、UPDATE和DELETE在流式SQL中也有作用,但在这篇文章中,我们将重点讨论从流中读取、连接/过滤/转换这些流的核心概念,并使其输出可查询或 写到一个新的流。

流上的SQL和数据库之间的区别

一旦你尝试在流上使用SQL,一些关键的区别就会变得很明显。

时间点查询与连续查询

在传统数据库上运行SQL查询,会从一个时间点上返回一组静态的结果。

以这个疑问为例:

SELECT SUM(amount) as total_amount FROM invoices;

当你运行它时,数据库引擎会扫描在查询时存在的所有的Invoices,并返回其金额之和。

使用流式SQL,你可以运行上面的确切查询,并得到一个时间点的答案。但是你查询的是快速变化的数据流,一旦你得到了结果,它们可能就已经过时了。在许多情况下,一个持续更新的查询(物化视图)在以下几个方面更有用,我们将在下面描述。

要把上面的查询变成一个物化的视图,你要写。

CREATE MATERIALIZED VIEW invoice_summary AS
SELECT SUM(amount) as total_amount FROM invoices;

当你第一次创建时,SQL引擎将处理它所能访问的整个Invoice事件历史,直到现在,然后随着新的发票事件的到来继续更新。

响应时间与滞后

传统的数据库有查询响应时间的概念:你运行一个查询,在引擎计算结果的过程中会经过一些时间,然后你得到响应。

在流处理中,最初的响应时间只是在你第一次物化一个视图时的一个因素。但是,如果我们的输入事件突然激增,在流结果中一定会有某种时间上的惩罚。这种惩罚就是时间滞后:输出比输入落后多少时间?

就像传统数据库的响应时间一样,大多数终端用户不需要考虑流式系统的时滞问题,但知道它的存在有助于以避免问题的方式编写和使用流式SQL。

不同的行动为底层引擎创造工作
在读取方面,传统的数据库引擎一直在闲置,直到它收到一个查询,然后它计划和优化它,并开始工作提供结果。一旦它回复了结果,它就会再次闲置,直到它收到另一个查询。发送查询是为引擎创造工作。

如果你回到上面的物化视图,来自流的新数据为引擎创造了工作。在Materialize中,这种方法是通过增量计算实现的:更新视图所做的工作与进来的数据成比例,而不是与查询的复杂性成比例。我们不需要对数据进行全面的重新扫描来更新结果。

这种模式的转变使得流式SQL最适合于反复询问同一问题的查询(如仪表盘、报告、自动化、大多数应用程序代码),而不是临时性的查询。

为什么流式SQL是有用的?
1.数据最初出现时往往是最有价值的

这有两个原因,一个很明显,一个不太明显。

更快的数据=更快的决策–股票市场是这个想法发挥到极致的一个明显例子。
但它也适用于SaaS企业,像市场、旅游、活动等需要对费率和库存做出快速决策的垂直行业,以及零售和物流业,因为快速决策可以减少低效率,等等。
数据离它的源头越近,被误解的机会就越少–数据从创建的地方到使用的地方,每一步都会增加出错的可能性,即终端用户(人或机器)认为数据代表的东西并不存在。时间在其中起到了作用,它迫使人们围绕操作顺序和工作的一致性进行协调。在这种情况下,切换到流数据并不是因为它更快,而是因为你不再需要考虑时间问题。

2.SQL是一种从流式数据中获得洞察力的伟大手段

这里是另一个关于流式事件的物化视图的例子。

CREATE MATERIALIZED VIEW experiments ASSELECTexperiment_views.name,experiment_views.variant,COUNT(DISTINCT(experiment_views.user_id)) as unique_users,COUNT(DISTINCT(conversions.user_id)) as unique_conversionsFROM experiment_viewsLEFT JOIN conversions ONconversions.user_id = experiment_views.user_idAND conversions.created_at > experiment_views.created_atGROUP BY experiment_views.name, experiment_views.variant;
  • SQL并不是流处理所特有的–当数据从流转移到数据库时,其意义并没有改变,所以我们查询的方式也不应该改变。
  • 它的声明性提高了生产力 ,开发人员几乎不需要做任何优化决定,特别是与代码中的相同任务相比。

SQL有一个额外的好处,那就是它是一种成熟的语言,建立了30多年,周围有一个工具和教育的生态系统。这意味着更多的开发者可以使用流媒体数据,并轻松地将其整合到他们的堆栈的其他部分。

流式SQL的用例

今天,任何已经在使用像Kafka这样的消息代理的人都可以开始使用流式SQL,而不需要付出很大努力。在未来,随着CDC软件的成熟,这一标准将扩展到 “任何拥有数据库的人”。"以下是一些使用流式SQL的例子。
商业智能和分析
当决定 "什么是赋予我们的内部团队从数据中做出智能决策的最佳方式 "时,流式SQL是一个需要考虑的选项,它的权衡使它对某些情况比其他情况更好。

在许多情况下,用流式SQL完成的主源数据的物化视图是一个更简单的 data pipeline.除了实时数据的好处外,企业使用这种方法还可以回避以下问题。

  • 批量处理中的时间间隔和操作顺序的协调
  • 在下一个批次运行前无法修复或测试的错误所导致的长时间停工
  • 仪表盘加载缓慢
  • 缓存、反规范化造成的不一致问题

微服务
流式SQL被用来取代在微服务中做复杂数据协调和转换的代码。

像kafka这样的事件流通常已经是微服务架构中的第一等公民。工程师们经常发现自己在构建和维护复杂的应用程序,从kafka中消费。例如:从事件日志中读取的应用程序,以产生对SaaS应用程序的API使用的洞察力和测量。

微服务中任何看起来像查询的组件都可能被流式SQL所取代。

实时应用
如果你的应用程序的价值取决于你实时交付更新和数据的能力,流式SQL可能是建立一个昂贵或复杂的多组件堆栈的替代方案。
新的能力
面向用户的实时分析–以前,只有像LinkedIn和Google这样的技术巨头才有规模和工程团队来建立面向用户的实时分析(如LinkedIn的 "谁浏览了你的个人资料 "页面或Google Analytics的实时仪表板)。通过降低复杂性,流式SQL向更多的公司开放了神奇的实时用户分析功能。

业务自动化 - 一旦你有了实时仪表盘的流式SQL,一个自然的进展就是开始在相同的数据上做出自动化的决定。(例如。如果你的电子商务网站从某一特定来源获得的流量激增,就在主页上增加一个促销活动)。

总结

Materialize提供了一个流式SQL实现,它在两个重要方面是独一无二的。

在Materialize中,你可以用与postgres兼容的SQL编写查询。我们认为值得花费额外的精力来构建这个系统,因为只有在这种级别的SQL兼容中,你才能获得与现有工具集成的好处,并消除用户对高级流处理概念的负担。

查询引擎使用增量计算(Differential Dataflow)来更有效地维护物化视图,因为新的数据进来了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35683.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C++编程物联网:舵机VS步进电机

舵机和步进电机都是常见的电机类型,它们在自动化和机器人控制中有着不同的应用场景。两者的主要区别在于控制方式、运动精度、适用范围等方面。下面详细介绍它们的作用、应用场景和主要区别。 1. 舵机(Servo Motor) 工作原理 舵机是一种具有反馈控制的电动机,通常由电动…

鸿翼参与撰写档案数据管理与长期保存策略基于数字中国战略的研究

​编者按:近日,由中国财富出版社有限公司出版的《档案数据管理与长期保存策略——基于数字中国战略的研究》正式发行,上海鸿翼软件技术股份有限公司董事长兼CEO龙凌云作为核心作者参与主要编写工作。 本书是在国家档案局立项科研项目“数字档…

机器学习中的图匹配问题—基础学习

机器学习中的图匹配问题 结合导师所给的方向,能否将实例之间的点匹配问题转换为点到实例之间的匹配问题来进行求解呢?这里结合师姐推荐的讲座首先对图匹配的这个方向来进行简单的了解和接触。 图匹配问题概述 图匹配就是:不仅考虑点之间的配…

2024.11.29——[HCTF 2018]WarmUp 1

拿到题&#xff0c;发现是一张图&#xff0c;查看源代码发现了被注释掉的提示 <!-- source.php--> step 1 在url传参看看这个文件&#xff0c;发现了这道题的源码 step 2 开始审计代码&#xff0c;分析关键函数 //mb_strpos($haystack,$needle,$offset,$encoding):int|…

gRPC 快速入门 — SpringBoot 实现(1)

目录 一、什么是 RPC 框架 &#xff1f; 二、什么是 gRPC 框架 &#xff1f; 三、传统 RPC 与 gRPC 对比 四、gRPC 的优势和适用场景 五、gRPC 在分布式系统中应用场景 六、什么是 Protocol Buffers&#xff08;ProtoBuf&#xff09;&#xff1f; 特点 使用场景 简单的…

工具篇--GitHub Desktop 使用

文章目录 前言一、GitHub Desktop 的使用&#xff1a;1.1 通过官网下载GitHub Desktop和安装&#xff1a;1.2 安装和使用&#xff1a;1.2.1 填充自己的标识&#xff1a;1.2.3 克隆项目&#xff1a;1.2.4 git 常用忽略项配置&#xff1a; 二、代码的更新和提交&#xff1a;2.1 代…

MySQL事物隔离级别详细解释

目录 事务隔离级别总结 实际情况演示 脏读(读未提交) 避免脏读(读已提交) 不可重复读 可重复读 幻读 解决幻读的方法 事务隔离级别总结 SQL 标准定义了四个隔离级别&#xff1a; READ-UNCOMMITTED(读取未提交) &#xff1a;最低的隔离级别&#xff0c;允许读取尚未提…

[每周一更]-(第126期):MQ解耦场景

消息队列&#xff08;MQ&#xff09;解耦是一种软件架构设计模式&#xff0c;主要通过中间件将系统中的生产者和消费者模块分离&#xff0c;减少模块之间的直接依赖&#xff0c;使系统具有更高的扩展性和灵活性。这种模式尤其适用于需要处理复杂业务逻辑、频繁请求或异步处理的…

Redis的高可用之哨兵模式

Redis哨兵主要是解决Redis主从同步时主数据库宕机问题,使其能够自动进行故障恢复&#xff0c;提高Redis系统的高可用性。 1. 哨兵的作用&#xff1a; 监控&#xff1a;哨兵通过心跳机制监控主库和从库的存活性。 选主&#xff1a;当主库宕机时&#xff0c;哨兵会选举出一个领…

知识分享|一文了解实时荧光定量PCR(qPCR)技术的原理与分类

实时荧光定量PCR技术(Realtime quantitative PCR&#xff0c;qPCR)是在PCR反应体系中添加荧光报告基团和荧光淬灭基团&#xff0c;通过荧光信号来实现对核酸分子的定量检测过程在反应过程中&#xff0c;PCR产物随着扩增反应的进行不断生成&#xff0c;荧光信号不断增加&#xf…

【MySQL】环境变量配置

环境变量英文名SystemRoot&#xff0c;直译为“系统总&#xff08;根&#xff09;目录"&#xff0c;主要指明操作系统的重要目录在哪里。那么配置MySQL的环境变量&#xff0c;就是在程序运行时&#xff0c;告诉操作系统你的MySQL目录位置。 复制MySQL安装目录&#xff1a;…

高级 CEF 内核集成与 VC++——开发环境搭建与配置

开发环境的搭建是 CEF 浏览器开发中至关重要的一步。正确配置开发环境不仅能提高开发效率&#xff0c;也能确保开发过程中的稳定性与可靠性。本文将结合最新的资料和技术方案&#xff0c;深入讲解如何搭建 CEF 编译与配置环境&#xff0c;正确配置 Windows SDK 与依赖库&#x…

【React】组件通讯有哪几种方式?

文章目录 一、父子组件通讯二、兄弟组件通讯3、context 跨级组件通讯 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、父子组件通讯 父组件 ----> 子组件&#xff1a; props 父组件提供要传递的 state 数据 给子组件标签添加属性&#xff0c;值…

huggingface-cli下载数据(含下载指定数据教程)

在国内&#xff0c;推荐使用&#xff1a;HF-Mirror 1.尝试下载大模型相关文件 在huggingface镜像首页&#xff0c;可以看到如图&#xff1a; 2.使用huggingface-cli下载文件 2.1 首先激活自己的虚拟环境&#xff0c;然后安装环境&#xff0c;使用如下命令&#xff1a; pip …

生产慎用之调试日志对空间矢量数据批量插入的性能影响-以MybatisPlus为例

目录 前言 一、一些缘由 1、性能分析 二、插入方式调整 1、批量插入的实现 2、MP的批量插入实现 3、日志的配置 三、默认处理方式 1、基础程序代码 2、执行情况 四、提升调试日志等级 1、在logback中进行设置 2、提升后的效果 五、总结 前言 在现代软件开发中&…

Linux下编译安装METIS

本文记录Linux下编译安装METIS的流程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1 一、安装依赖 1.1 下载GKlib sudo apt-get install build-essential sudo apt-get install cmake 2.2 编译安装GKlib 下载GKlib代码&#xff0c; …

数据链路层总结

- - 链路、物理链路&#xff1a;两节点间物理线路&#xff08;有线、无线&#xff09;&#xff0c;中间没有任何其他的交换节点 数据链路、逻辑链路&#xff1a; 链路 协议需要的硬件、软件 网络适配器(网卡)&#xff1a;包含物理层、数据链路层 网络适配器软件驱动程…

基于Java和Vue开发的漫画阅读软件漫画阅读小程序漫画APP

前景分析 受众广泛&#xff1a;漫画的受众群体广泛&#xff0c;不仅限于青少年&#xff0c;还涵盖了成年人等多个年龄层和社会阶层。漫画文化在全球范围内的影响力不断扩大&#xff0c;未来漫画软件创业可以考虑全球市场的拓展。 市场需求大&#xff1a;数字化阅读趋势下&…

LoRa无线空调计费系统都应用在哪里

中央空调计费系统由于布线方式需要消耗大量的人力及成本&#xff0c;LoRa在楼宇自控及智能家居中的应用越来越广泛&#xff0c;成为当前普遍应用的通信技术。 LoRa模块无线传输技术的不断完善&#xff0c;逐步解决了温控器通信方面布线困难、施工成本高的问题&#xff0c;促进…

4.STM32通信接口之SPI通信---硬件SPI的介绍

上一节&#xff0c;我们学会软件的SPI&#xff0c;本节&#xff0c;我们将学习STM32的SPI硬件收发电路&#xff0c;虽然STM32的硬件收发电路很强大&#xff0c;但是&#xff0c;很多我们都用不到&#xff0c;我们只需会最基本的就可以。硬件的好处就是稳定&#xff0c;功能模块…