目录
一、前言
二、流式数据处理场景介绍
2.1 流式数据处理概述
2.1.1 流式数据处理场景介绍
2.2 流式数据处理技术栈
2.2.1 数据采集
2.2.2 数据处理
2.2.3 数据存储
2.2.4 数据展示
2.3 流式数据处理场景面临的问题和挑战
三、通用的流式数据处理场景解决方案
3.1 基本流式处理架构
3.2 流处理与批处理结合
3.3 实时数据仓库
3.4 流式 ETL 架构
四、实验环境准备
4.1 kafka搭建过程
4.1.1 创建相关的目录
4.1.2 编写yaml文件
4.1.3 启动kafka和zk容器
4.1.4 检查容器是否启动成功
4.2 测试验证
4.2.1 进入kafka容器
4.2.2 创建一个topic
4.2.3 测试发送消息
4.3 创建两个备用topic
4.3.1 提前创建两个备用topic
4.3.2 开启生产窗口和消费窗口
五、flink 接收kafka数据并写入kafka
5.1 前置准备
5.1.1 组件版本说明
5.1.2 maven核心依赖
5.2 需求说明
5.3 核心代码实现过程
5.3.1 核心代码实现方式一
5.3.2 效果测试
5.3.3 核心代码实现方式二
六、flink 接收kafka数据写入mysql
6.1 前置准备
6.2 代码实现过程
6.2.1 自定义实体类
6.2.2 添加自定义Sink函数
6.2.3 核心任务逻辑实现
6.2.4 效果测试
七、写在文末
一、前言
在大数据场景中,Flink作为重要的流式处理框架,在架构运行中承载着重要的作用,与之配合使用的就是大家熟悉的高性能消息中间件kafka,两者的结合,就可以解决很多场景下的流式数据问题,本文将通过几个案例详细介绍一下。
二、流式数据处理场景介绍
2.1 流式数据处理概述
流式数据处理(Streaming Data Processing)指的是对连续不断的数据流进行实时处理的技术。这种处理方式适用于需要对大量数据进行快速反应和决策的场景。尤其在需要实时分析、决策支持和即时响应的应用场景中尤为重要。