Alluxio Enterprise AI on K8s FIO 测试教程

Alluxio Enterprise AI on K8s FIO 测试视频教程

视频为Alluxio Enterprise AI on K8s FIO测试视频教程。fio是业内常用的磁盘与文件系统性能测试工具,下面内容将通过文字方式介绍Alluxio on k8s 进行fio测试的教程。

1. 测试环境

  • 虚拟机规格:ecs.g3i.16xlarge,包含 64 vCPU、256GB 内存、140GB 磁盘(极速型 SSD FlexPL)。带宽等详细数据见实例规格。
  • Alluxio 版本:3.2-5.2.1
  • Alluxio Operator 版本:1.3.0

2. 测试环境准备

确保已经在云端kubernetes集群上搭建了Alluxio集群,集群中已启动以下pod,集群部署和启动方式详见《Alluxio on K8s部署教程》

  • 1 个 Coordinator pod

  • 2 个 Worker pod

  • 1 个 FUSE pod

    • 在业务pod启动时被自动拉起,和业务pod被分配在同一个node
  • 1 个业务pod

    • 启动方式:见FUSE-based POSIX API,下文也有启动yaml文件示例。启动视频教程见《Alluxio on K8s 部署教程》视频11分30秒处

2.1 集群配置

下面是alluxio集群的yaml文件配置内容。

注意1:etcd需要配置storageClass字段。不同云厂商的容器服务提供不同的storage class类型。如何配置,详见《Alluxio on K8s 部署教程》和Alluxio on K8s FAQ。如果不清楚当前云厂商容器服务的storage class类型,请执行kubectl get sc查看。如果您只是进行部署验证,同时当前没有方便的 storage class 供集群使用,您可以关闭 etcd 的 persistence 配置,如下。注意该配置无法适用于生产,仅供验证测试使用。

etcd:persistence:enabled: false

注意2:集群的默认配置会部署1个 coordinator、2 个 worker、1 套 3 节点 etcd,同时启动 pvc 的 pod 过程中会自动创建 fuse 相关 pod,请谨慎配置这些相关 pod 的 request 资源,以免相应 pod 无法调度成功。

apiVersion: k8s-operator.alluxio.com/v1
kind: AlluxioCluster
metadata:name: alluxio
spec:image: k8s-alluxio-cn-beijing.cr.volces.com/alluxio-test/alluxio-enterpriseimageTag: AI-3.2-5.2.1user: 0group: 0worker:count: 2resources:limits:cpu: "16"memory: "32Gi"requests:cpu: "0"memory: "512Mi"jvmOptions:- "-Xmx16g"- "-Xms16g"- "-XX:MaxDirectMemorySize=12g"fuse:type: csiresources:requests:cpu: "0"memory: "2Gi"limits:cpu: "32"memory: "16Gi"jvmOptions:- "-Xms24g"- "-Xmx24g"- "-XX:MaxDirectMemorySize=16g"etcd:enabled: truereplicaCount: 1persistence:storageClass: ebs-ssdsize: 30Giimage:registry: k8s-alluxio-cn-beijing.cr.volces.comrepository: alluxio-test/etcdtag: 3.5.9-debian-11-r24volumePermissions:image:registry: k8s-alluxio-cn-beijing.cr.volces.comrepository: alluxio-test/os-shelltag: 11-debian-11-r2alluxio-monitor:enabled: trueprometheus:imageInfo:image: k8s-alluxio-cn-beijing.cr.volces.com/alluxio-test/prometheusimageTag: v2.52.0grafana:imageInfo:image: k8s-alluxio-cn-beijing.cr.volces.com/alluxio-test/grafanaimageTag: 11.1.0-ubuntupagestore:quota: 10Gi

2.2 业务pod环境配置

下面是业务pod的yaml文件配置内容。此处yaml文件的image字段可以任意指定一个镜像。如果是国内用户,确保指定的镜像可以被集群拉取到即可。

apiVersion: v1
kind: Pod
metadata:name: fuse-test-0labels:app: alluxio
spec:containers:- image: k8s-alluxio-cn-beijing.cr.volces.com/alluxio-test/grafana:11.1.0-ubuntuimagePullPolicy: IfNotPresentname: fuse-testcommand: ["/bin/sh", "-c"]args:- sleep infinityvolumeMounts:- mountPath: /dataname: alluxio-pvcmountPropagation: HostToContainersecurityContext:runAsUser: 0runAsGroup: 0volumes:- name: alluxio-pvcpersistentVolumeClaim:claimName: alluxio-alluxio-csi-fuse-pvcnodeSelector:kubernetes.io/hostname: 172.31.16.6

如果fuse pod和worker pod被分配到了同一个node,那么数据并不会通过网络传输,会导致测试结果不准确。为了保证fuse pod与worker pod分配在不同的node,请使用最后两行来指定一个node,在其上分配fuse pod和业务pod。此处填入的值为kubectl get node看到的node name。此处为将该pod分配到名为172.31.16.6的node。

在业务pod上进行 fio 测试之前,需要进行以下配置:

  1. 更新并安装依赖:

    apt-get update && apt install -y libaio-dev fio openssh-server
    
  2. 启动 SSH 服务:

    service ssh start
    
  3. 配置免密登录,使业务pod可以免密登录到宿主机,便于清理 Kernel 缓存。

3. 测试流程

使用 fio 对 Alluxio 文件系统进行读操作的性能测试,具体步骤如下:

3.1 准备数据

首先,登陆进任意一个woker pod,使用 Alluxio 的 job 命令将测试数据加载到 Worker 节点上。例如,此处的测试数据为tos://tos-k8s-alluxio-test/5G,其为通过dd命令生成并上传的一个5GB大小的文件:

alluxio job load --path tos://tos-k8s-alluxio-test/5G --submit
alluxio job load --path tos://tos-k8s-alluxio-test/5G --progress

使用--submit提交数据load命令,使用--progress查看数据load进度。当--progress返回Job State: SUCCEEDED时,说明测试数据已经load完成,接下来通过alluxio-fuse的读操作都是热读。

3.2(重要)在每次测试前清理 Kernel Cache

在执行每次测试前,都需要清除 Kernel Cache,避免Linux kernel cache对测试结果的干扰。使用以下命令在宿主机上清除Kernel Cache:

sudo sh -c 'sync; echo 3 > /proc/sys/vm/drop_caches'

3.3 执行顺序热读测试

3.3.1 -bs=4K 顺序热读

使用以下命令测试 4K 顺序热读性能:

fio -iodepth=1 -rw=read -ioengine=libaio -bs=4K -numjobs=1 -group_reporting -size=5G -filename=/data/tos/5G -name=read_test --readonly -direct=1 --invalidate=1
3.3.2 -bs=256K 顺序热读

清除 Kernel Cache后,使用以下命令测试 256K 顺序热读性能:

fio -iodepth=1 -rw=read -ioengine=libaio -bs=256K -numjobs=1 -group_reporting -size=5G -filename=/data/tos/5G -name=read_test --readonly -direct=1 --invalidate=1

3.4 执行随机热读测试

3.4.1 -bs=4K 随机热读

再次清理 Kernel Cache后,执行 4K 随机热读测试:

fio -iodepth=1 -rw=randread -ioengine=libaio -bs=4K -numjobs=1 -group_reporting -size=5G -filename=/data/tos/5G -name=read_test --readonly -direct=1 --invalidate=1
3.4.2 -bs=256K 随机热读

清理 Kernel Cache后,执行 256K 随机热读测试:

fio -iodepth=1 -rw=randread -ioengine=libaio -bs=256K -numjobs=1 -group_reporting -size=5G -filename=/data/tos/5G -name=read_test --readonly -direct=1 --invalidate=1

通过以上步骤,能够评估 Alluxio 文件系统在不同读写场景下的性能表现,并得到相应的数据支持。

视频中的实际测试结果显示,当batch size为256k,顺序热读场景下,fio 单线程读吞吐可达2924MB/s。增大线程数(numjobs)到32,64,可以得到更高的fio测试性能。关于更多测试结果,请点击官网性能测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1540250.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

通过蓝图Blueprint完成项目拆分、模块化以及模块化后项目结构分析

1、不拆分项目之前的写法 在上一篇Flask入门和视图中我们讲解了Flask项目的一个启动流程,引入Flask、创建Flask对象,然后由路由进入在视图函数中通过模版渲染或者json系列化的方式返回页面或者数据。我们发现这些所有的操作都是在一个页面中完成的&…

不只是模仿,伯克利新研究赋予机器人跨实体自主学习的能力,零样本时代已来

导读: 在当今科技飞速发展的时代,机器人技术正不断地给我们带来惊喜和变革。2024 年 9 月,一篇来自加州大学伯克利分校、丰田研究所和Physical Intelligence 的研究论文RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Rob…

C++ | 二叉搜索树

前言 本篇博客讲解c中的继承 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:C_普通young man的博客-CSDN博客 ⏩ 本人giee: 普通小青年 (pu-tong-young-man) - Gitee.com 若有问题 评论区见📝 🎉欢迎大家点赞&…

超详细!百分百安装成功pytorch,建议收藏

文章目录 一、Anaconda安装1.1下载anaconda1.2配置Anaconda环境1.3验证anaconda是否安装成功 二、查看电脑显卡三、更新显卡驱动3.1下载驱动3.2、查看显卡驱动版本 四、cuda安装4.1CUDA下载4.2CUDA环境配置4.3验证CUDA是否安装成功 五、安装pytorch4.1下载pytorch5.2验证pytorc…

OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【内核通信机制】上

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ 子系统开发内核 轻量系统内核(LiteOS-M) 轻量系统内核&#…

力扣 18.四数之和

文章目录 题目介绍解法 题目介绍 解法 思路和 15. 三数之和 一样,排序后,枚举 nums[a] 作为第一个数,枚举 nums[b] 作为第二个数,那么问题变成找到另外两个数,使得这四个数的和等于 target,这可以用双指针…

《线性代数》常用公式定理总结

文章目录 1 行列式1.1 克拉默法则1.2 基本性质1.3 余子式 M i j M_{ij} Mij​1.4 代数余子式 A i j ( − 1 ) i j ⋅ M i j A_{ij} (-1)^{ij} \cdot M_{ij} Aij​(−1)ij⋅Mij​1.5 具体型行列式计算(化为基本型)1.5.1 主对角线行列式:主…

git 本地分支误删,怎么恢复?误删本地已提交未推送的分支!

误删本地已提交未推送的分支! 前提: 已提交! 重点:未推送! 要是推送了,再拉一下代码就行了。你也不会来搜这个帖子了。 如果你删除的分支里有你未提交的代码,不用往下看了,帮不到你…

树莓派4B+UBUNTU20.04+静态ip+ssh配置

树莓派4B+UBUNTU20.04+静态ip+ssh配置 1.烧录Ubuntu镜像1.1选择pi 4b1.2选择ubuntu server (服务器版,无桌面)20.041.3选择sd卡1.4 点击右下角 NEXT ,编辑设置,输入密码,wifi选CN, 开启ssh1.5 烧录,依次点击“是”,等待完成2 烧录完成后装入树莓派,上电,等待系统完成配…

电竞显示器哪个牌子好

电竞显示器哪个好?你想成为电竞选手吗?显示器很关键,下面我就列举7款市面流行的电竞显示器给大家看看,总有一款适合你。 1.电竞显示器哪个好 - 蚂蚁电竞 ANT255VF电竞显示器 一、产品概述 蚂蚁电竞 ANT255VF电竞显示器是一款专为…

鱼哥好书分享活动第31期:如何构建出更好的大模型RAG系统?《大模型RAG实战》

鱼哥好书分享活动第31期:如何构建出更好的大模型RAG系统?《大模型RAG实战》 S1 初级RAGS2 高级RAG模型测策略测模型微调测 S3 超级RAG购买链接:内容简介:赠书抽奖规则: ChatGPT爆火之后,以ChatPDF为首的产品组合掀起了…

Node-red 某一时间范围内满足条件的数据只返回一次

厂子里有个业务需求增加一段逻辑,根据点位数值,判断是否让mes执行之后的逻辑。 网关采集周期5s/次,及数据上报周期5s/次; iot通过网关写入时间为8s左右; 同类设备共用一条规则链; 想当触发条件时修改”完成上传“不…

简单题67.二进制求和 (java)20240919

题目描述: Java: class Solution {public String addBinary(String a, String b) {StringBuilder result new StringBuilder();int i a.length()-1;int j b.length()-1;int carry 0; //记录进位信息while(i>0 || j>0 || carry!0){int sum ca…

[Linux#55][网络协议] 序列化与反序列化 | TcpCalculate为例

目录 1. 理解协议 1.1 结构化数据的传输 序列化与反序列化 代码感知: Request 类 1. 构造函数 2. 序列化函数:Serialize() 3. 反序列化函数:DeSerialize() 补充 4. 成员变量 Response 类 1. 构造函数 2. 序列化函数:…

免费下载PDF | 自然语言处理新范式:基于预训练模型的方法

前言 本次给大家推荐阅读的书籍是——《自然语言处理:基于预训练模型的方法》。近些年来,以GPT、BERT为代表的预训练模型在自然语言处理领域掀起了一股浪潮,打开了“预训练精调”的自然语言处理新范式的大门。 由电子工业出版社出版的《自然…

动手学深度学习(pytorch土堆)-06损失函数与反向传播、模型训练、GPU训练

模型保存与读取 完整模型训练套路 import torch import torchvision.datasets from torch import nn from torch.nn import Conv2d, MaxPool2d, Flatten, Linear from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriterfrom model impo…

AV1 Bitstream Decoding Process Specification--[7]: 语法结构语义-3

原文地址:https://aomediacodec.github.io/av1-spec/av1-spec.pdf 没有梯子的下载地址:AV1 Bitstream & Decoding Process Specification摘要:这份文档定义了开放媒体联盟(Alliance for Open Media)AV1视频编解码…

分发饼干00

题目链接 分发饼干 题目描述 注意点 1 < g[i], s[j] < 2^31 - 1目标是满足尽可能多的孩子&#xff0c;并输出这个最大数值 解答思路 可以先将饼干和孩子的胃口都按升序进行排序&#xff0c;随后根据双指针 贪心&#xff0c;将当前满足孩子胃口的最小饼干分配给该孩…

再次理解UDP协议

一、再谈端口号 在 TCP / IP 协议中&#xff0c;用 "源 IP", "源端口号", "目的 IP", "目的端口号", "协议号" 这样一个五元组来标识一个通信(可以通过 netstat -n 查看) 我们需要端口号到进程的唯一性&#xff0c;所以一个…

Obsidian如何粘贴的图片类似于Typora,图片相对当前路径

添加插件 下载插件&#xff1a; Custom Attachment Location 基础设置 同时需要在下面进行设置 示意效果