海量小文件挑战下的CephFS:优化策略与实践探索

文章目录

  • 1.背景
  • 2.基本概念
    • 2.1 CephFS IO流程
    • 2.2 Ceph-FUSE
  • 3. 问题
    • 3.1 问题源起
    • 3.2 理论分析
    • 3.3 原因排查
      • 3.3.1 Ceph-FUSE日志分析
      • 3.3.2 提出猜想
      • 3.3.3 代码验证
        • 3.3.3.1 MDS端
        • 3.3.3.2 Ceph-FUSE端
    • 3.4 小结

1.背景

随着大数据、人工智能技术的蓬勃发展,人类对于算力资源的需求也迎来大幅度的增长。在某平台以降本增效为目标,整合了公司的GPU训练卡资源,为算法工程师们提供统一的底层GPU算力服务。借助于虚拟化、算力挖掘等技术,平台服务公司内各BG的AI训练场景,GPU利用率业界领先。同时,通过云原生任务化的方式,对接了内部各大业务,促进了AI技术研究效率的提升和创新研究。
当下,由于AI训练时的高性能计算设备(如NVIDIA GPU)成本高昂,如果任务在训练过程中不能保证数据IO的速度,将会导致计算设备低载甚至空载,这无疑在时间和资源上都是一种极大的浪费。
在某平台内部,用户的训练数据大多存放在平台提供的CephFS中,训练时将对应的CephFS目录挂载至容器内部,从而使用户在训练时能够像使用本地文件系统一样使用CephFS。但在平台运营过程中我们发现,在训练数据集文件数较多时,训练任务使用CephFS会使训练速度变得异常缓慢。基于这个普遍存在的问题,本文剖析其产生的原理,然后介绍相应的优化方案。最后,通过延伸思考来发散思维,简要介绍了不同场景下AI训练加速的技术。

2.基本概念

2.1 CephFS IO流程

CephFS IO流程如下图所示。
在这里插入图片描述
当客户端进行文件系统调用时(如open、read、readdir等),需要先从元数据服务器(Metadata Server, MDS)中获取请求文件的元数据信息,元数据信息主要包括文件的Inode号、权限、uid、gid和访问更改时间等。为了加快元数据的访问效率,MDS将大部分热点元数据都缓存在自己的内存中,从而避免低效地通过访问RADOS(Reliable, Autonomic Distributed Object Store)层来获取元数据。客户端在从MDS中获取元数据后,通过计算的方式(CRUSH算法)得到数据在RADOS中的位置,最后与远程的存储设备进行交互。
从这个架构来看,CephFS是一个元数据和用户数据分离的文件系统。文件的元数据和数据存储在RADOS中的不同Pool中,客户端需要先与MDS进行元数据交互,再与RADOS进行数据交互。

2.2 Ceph-FUSE

Ceph-FUSE是CephFS客户端的一种形式,通过用户空间文件系统(Filesystem in Userspace, FUSE)的方式来实现CephFS客户端的功能。FUSE是一个面向类Unix计算机操作系统的软件接口,它使无特权的用户能够无需编辑内核代码而创建自己的文件系统。目前Linux通过内核模块对此进行支持。通过这种方式,我们可以编写用户态的应用程序,只需要实现Linux定义的一组文件系统接口,即可在用户态实现一个完整的文件系统。

当用户需要与CephFS进行交互时,客户端的整个IO流程如下:

  • 用户程序通过syscall或glibc库进行系统调用。
  • 进程陷入内核态,文件系统操作请求到达Linux虚拟文件系统(Virtual Filesystem, VFS)。
  • VFS根据请求类型,从Dentry Cache、Inode Cache和Page Cache中分别查找dentry、inode和页缓存,若缓存命中可直接返回。
  • 若缓存不命中,则将请求转发至FUSE Driver。
  • Ceph-FUSE进程通过libfuse监听到来自于/dev/fuse的请求,与Ceph集群进行交互并返回结果。

在这里插入图片描述
当用户态程序发起FUSE请求时,Ceph-FUSE在经过处理后会将元数据信息缓存在内存中,提升后续访问的性能。同时,Linux的Dentry Cache、Inode Cache和Page Cache也会分别缓存该文件的dentry、inode和页,提升热点数据的读取性能。

3. 问题

3.1 问题源起

平台上运行的训练任务场景各不相同。在运营过程中我们发现,有用户反映某些任务中CephFS的读取速度较慢,使整个训练的时间拉长,其中属CV(Computer Vision)类的任务较为明显。

平台上CV类的任务数据集,一般都是海量的图片文件。这类数据集的特点是:

  • 文件个数多,小数据集达到十万级别,大数据集达到百万、千万甚至上亿级别。
  • 单个文件占用空间不大,大多是小文件。

3.2 理论分析

AI训练场景与许多复杂的文件操作场景不同,其数据读写的逻辑较为简单。一般来说,用户会在每个epoch训练相同的数据,然后训练多个epoch直至模型达到收敛条件。因此,AI训练场景下,训练文件在训练过程中保持不变,且被读取的频率相对固定,同时写文件的频率较低。
针对这种特点,由于Ceph-FUSE会对访问过的元数据进行缓存,同时Linux的Dentry Cache、Inode Cache和Page Cache也会充分缓存读取过的文件元数据和文件数据。通常来说,在第二个epoch开始时,由于数据集文件在第一个epoch已被访问过,训练时的IO速度应当有非常明显的提升。然而,事与愿违,对于较多数量的文件,我们发现训练速度没有明显提升,且每个epoch的训练速度都很慢。
为了查出其中的原因,接下来我们复制一个一模一样的任务,打开Ceph-FUSE日志进行分析。

3.3 原因排查

3.3.1 Ceph-FUSE日志分析

在训练任务开始时,打开母机上的Ceph-FUSE日志进行查看。
疑点现象:

  • 在第一个epoch接近末尾时,发现出现了日志trim_caps mds.x max xxx caps xxx。
  • 每次trim_caps执行,清除的dentry个数为5000。
  • 该日志每隔5s会打印一次,往后的训练过程中会一直持续。

注:CAPS是指capabilities,MDS用CAPS授予客户端对不同文件进行操作的许可,因此MDS需要实时维护每个客户端文件操作的CAPS。这就意味着,如果客户端持有了某个文件的CAPS并进行了缓存,MDS需要知道每个客户端缓存了哪些文件。

3.3.2 提出猜想

根据疑点现象大概能够提出以下的猜想:

  • 在第一个epoch结束时发生了trim_caps现象,且多次测试结果均是如此,猜测可能是缓存数量到达了某个阈值。
  • 日志每隔5s会打印一次,可能是定时器触发了trim_caps。
  • MDS需要维护每个客户端的CAPS,当客户端读取文件数较多时,MDS的cache总会达到oversize的状态,必定会触发trim_caps。

3.3.3 代码验证

根据上述猜想,可以在茫茫的Ceph源码中直奔主题,分别找出MDS和Ceph-FUSE的关键代码。

3.3.3.1 MDS端

根据现象2,在MDS中的tick函数内找到如下代码:

void MDSRankDispatcher::tick()
{......if (is_active() || is_stopping()) {server->recall_client_state(nullptr, Server::RecallFlags::ENFORCE_MAX); // 选中该MDS下持有较多caps数量的客户端,执行caps回收mdcache->trim();mdcache->trim_client_leases();mdcache->check_memory_usage(); // 当内存使用量过大时,选中该MDS下所有客户端,执行caps回收(recall_client_state)mdlog->trim();}......
}

从中可以看出,MDS端定时对客户端的CAPS进行回收,如果回收后内存使用量仍然过高,就对所有客户端再执行一次CAPS回收。在check_memory_usage函数中会根据cache试用情况决定是否再执行recall_client_state。

void MDCache::check_memory_usage()
{......if (cache_toofull()) {mds->server->recall_client_state(nullptr);}......
}

进入关键函数recall_client_state进行查看。

   /*** Call this when the MDCache is oversized, to send requests to the clients* to trim some caps, and consequently unpin some inodes in the MDCache so* that it can trim too.*/
std::pair<bool, uint64_t> Server::recall_client_state(MDSGatherBuilder* gather, RecallFlags flags)
{......const bool enforce_max = flags&RecallFlags::ENFORCE_MAX;const auto max_caps_per_client = g_conf->get_val<uint64_t>("mds_max_caps_per_client"); // 默认为1_Mconst auto min_caps_per_client = g_conf->get_val<uint64_t>("mds_min_caps_per_client"); // 默认为100const auto recall_max_caps = g_conf->get_val<uint64_t>("mds_recall_max_caps"); // 默认为5000....../* trim caps of sessions with the most caps first */std::multimap<uint64_t, Session*> caps_session;auto f = [&caps_session, enforce_max, max_caps_per_client](Session* s) {auto num_caps = s->caps.size(); // 当前caps总量// 当flags为RecallFlags::ENFORCE_MAX时,只把caps数量超过max_caps_per_client的客户端找出来,否则找出所有客户端if (!enforce_max || num_caps > max_caps_per_client) {caps_session.emplace(std::piecewise_construct, std::forward_as_tuple(num_caps), std::forward_as_tuple(s));}};mds->sessionmap.get_client_sessions(std::move(f));......for (const auto p : boost::adaptors::reverse(caps_session)) {......// 计算每个客户端的最大caps数量uint64_t newlim;if (num_caps < recall_max_caps || (num_caps-recall_max_caps) < min_caps_per_client) {newlim = min_caps_per_client;} else {newlim = num_caps-recall_max_caps;}if (num_caps > newlim) {/* now limit the number of caps we recall at a time to prevent overloading ourselves */uint64_t recall = std::min<uint64_t>(recall_max_caps, num_caps-newlim); // 这里可以看出,每次最多回收mds_recall_max_caps个newlim = num_caps-recall;......auto m = new MClientSession(CEPH_SESSION_RECALL_STATE); // 新建一个类型为CEPH_SESSION_RECALL_STATE的请求m->head.max_caps = newlim; // 设置客户端的最大caps数量mds->send_message_client(m, session); // 向客户端发送请求......}......}......
}

从上述代码基本可以确定CAPS被清除的原因,MDS每隔5s执行了一次recall_client_state。由于mds_max_caps_per_client默认被设置为1_M(也就是1048576),当训练程序读取文件个数达到1_M后该客户端就会被加入caps_session队列发起CAPS回收请求。由于recall_max_caps默认被设置为5000,所以每次CAPS回收的个数为5000。

3.3.3.2 Ceph-FUSE端

首先,根据MDS端发起的类型为CEPH_SESSION_RECALL_STATE的请求,找到客户端接受请求的代码。
void Client::handle_client_session(MClientSession *m)

{......switch (m->get_op()) {......case CEPH_SESSION_RECALL_STATE:trim_caps(session, m->get_max_caps()); // max_caps,值为上述的newlimbreak;......}......
}

Ceph-FUSE接收到MDS的请求后,进入trim_caps函数。

void Client::trim_caps(MetaSession *s, uint64_t max)
{mds_rank_t mds = s->mds_num;size_t caps_size = s->caps.size(); // 客户端caps总量......uint64_t trimmed = 0;auto p = s->caps.begin();std::set<Dentry *> to_trim; // 将需要执行caps回收的Dentry放入其中等待回收// 以下内容通过迭代器p将caps清理至max以下,将需要清理的Dentry放入to_trim中while ((caps_size - trimmed) > max && !p.end()) {......}for (const auto &dn : to_trim) {trim_dentry(dn); // 执行Ceph-FUSE内的dentry缓存}to_trim.clear();caps_size = s->caps.size();if (caps_size > max)_invalidate_kernel_dcache(); // 这是关键函数,调用了Linux的remount操作来清理所有的dentries

Ceph-FUSE接收到MDS的请求后,会将CAPS总量清理至max以下(本例中就是清理5000个CAPS)。同时,将这些CAPS对应的dentry缓存全部清除,并调用操作系统命令来清除Dentry Cache、Inode Cache和Page Cache,执行命令为:

static int remount_cb(void *handle)
{// used for trimming kernel dcache. when remounting a file system, linux kernel// trims all unused dentries in the file systemchar cmd[1024];CephFuse::Handle *cfuse = (CephFuse::Handle *)handle;snprintf(cmd, sizeof(cmd), "mount -i -o remount %s", cfuse->opts.mountpoint); // 调用remount,清理文件系统的缓存int r = system(cmd);......
}

3.4 小结

至此,基本真相大白。整体流程如下图所示:

训练程序启动,开始读取文件。

在第一个epoch训练后期,Ceph-FUSE拥有的CAPS达到1_M。

MDS定时器触发,对持有CAPS超过1_M的客户端执行发起回收CAPS请求,回收个数为5000。

Ceph-FUSE接收到CEPH_SESSION_RECALL_STATE请求,从caps队列中清除5000个CAPS并将这些CAPS对应的dentry从cache中清除。

Ceph-FUSE调用Linux的remount命令来清除Linux文件系统的cache。

MDS检查自身内存使用情况,若超过阈值则重复上述回收操作。

训练程序第二个epoch后,由于文件系统的cache被清除,导致缓存失效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11533.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

团队发展与个人价值的共生

一、团队属性 团队的本质属性&#xff0c;在很大程度上表现为一种选择性和甄别性&#xff0c;即排外与排异。这意味着团队需要筛选出具有相同目标、价值观以及能力互补的成员&#xff0c;以达成高效的协作与共同进步。在团队运作的过程中&#xff0c;首要任务是明确并深入理解…

git命令及原理

git: 目录则被称之为“树” 文件被称作 Blob 对象. git help <command>: 获取 git 命令的帮助信息 git init: 创建一个新的 git 仓库&#xff0c;其数据会存放在一个名为 .git 的目录下 git status: 显示当前的仓库状态 git add <filename>: 添加文件到暂存区 git …

大模型的记忆困境:平衡持续学习与灾难性遗忘

1. 引言 持续学习是智能的关键方面。它指的是从非平稳数据流中增量学习的能力&#xff0c;对于在非平稳世界中运作的自然或人工智能体来说是一项重要技能。人类是优秀的持续学习者&#xff0c;能够在不损害先前学习技能的情况下增量学习新技能&#xff0c;并能够将新信息与先前…

实时高效,全面测评快递100API的物流查询功能

一、引言 你是否曾经在网购后焦急地等待包裹&#xff0c;频繁地手动刷新订单页面以获取最新的物流信息&#xff1f;或者作为一名开发者&#xff0c;正在为如何在自己的应用程序中高效地实现物流查询功能而发愁&#xff1f;其实&#xff0c;有一个非常好用的解决方案——快递10…

HR人才评价系统软件选择攻略

企业对人力资源管理价值的日益认同&#xff0c;人才评价系统软件市场迎来了蓬勃发展的春天。在数字化转型的浪潮中&#xff0c;企业对人才的多元化需求愈发明显&#xff0c;传统的评价手段已难以跟上时代的步伐。因此&#xff0c;人才评价系统软件应运而生&#xff0c;迅速成为…

蓝桥杯真题——good-sequence(C语言)

问题描述 一个序列 [b1,b2,...,bm] 若对于 2≤i≤m 满足 bi≤b1 &#xff0c;则称为好序列。 现在给定 [a1,a2,...,an] &#xff0c;求对于该序列的每一个后缀 [ak,ak1,...,an](1≤k≤n)最少能划分成多少个好序列。 输入格式 第一行包含一个整数 n &#xff0c;表示数组 a …

智慧煤矿可视化管理平台

通过图扑可视化平台集成实时数据采集&#xff0c;提供对煤矿生产、安全及环境监测等多方面的二三维动态展示。通过优化资源调度和风险预警&#xff0c;提高了煤矿运营效率和安全性&#xff0c;支持科学决策与管理。

华为ISC供应链服务运营:流程、组织、治理与绩效管理的综合框架

华为整合物流服务&#xff08;Integrated Logistics Services&#xff0c;简称ILS&#xff09;是华为推出的一项旨在提升供应链效能和敏捷性的创新举措。以下是关于华为ILS运营模式设计的详细分析&#xff1a; 一、运营模式设计的核心目标 华为ILS运营模式设计的核心目标是实…

优化时钟网络之时钟偏移

Note&#xff1a;文章内容以Xilinx 7系列FPGA进行讲解 1、基本介绍 所谓时钟偏移&#xff08;Clock Skew&#xff09;&#xff0c;是指在同步时序电路中&#xff0c;同一个时钟信号到达各个寄存器时钟端口的时间不一致的现象。如下图所示&#xff1a; 时钟从源端到达寄存器FF1的…

华为ENSP路由器出现41解决方法之一

我解决这个问题的方法&#xff1a; 这个方法很简单 一&#xff0c;首先我们打开电脑上的Oracle VM VirtualBox&#xff0c;找到AR_Base(ARse_Link) ,右键删除 二&#xff0c;打开ENSP模拟器&#xff0c;选择一个AR系列路由器并启动&#xff0c;在时候ENSP会提示&#xff1a;未…

17RAL_Visual-Inertial Monocular SLAM with Map Reuse

文章目录 累啊Abstract1.Introduction2.视觉-惯性基本原理 (VISUAL-INERTIAL PRELIMINARIES)3. 视觉惯性 ORB-SLAM (VISUAL-INERTIAL ORB-SLAM)A.TrackingB. Local MappingC. Loop Closing 4.IMU INITIALIZATIONA. 陀螺仪偏置估计B. 尺度和重力的近似&#xff08;无加速度计偏置…

鸿蒙应用开发实践示例:创建首页

鸿蒙应用开发实践示例&#xff1a;创建首页 效果示例图示例代码 效果示例图 示例代码 import { window } from kit.ArkUI;Entry Component struct Index {//Provide和Consume&#xff0c;应用于与后代组件的双向数据同步&#xff0c;应用于状态数据在多个层级之间传递的场景Pr…

StringUtils 工具类

在日常的编程工作中&#xff0c;字符串&#xff08;String&#xff09;处理是一个非常常见且重要的任务。无论是字符串的判空、截取、转换大小写、分隔、比较&#xff0c;还是去除多余空格、拼接、使用正则表达式等操作&#xff0c;都需要我们编写大量的代码来处理各种边界情况…

【视觉SLAM】Windows下编译Pangolin-0.5,显示SLAM运动轨迹

1. 三方库配置 Pangolin v0.5 eigen3 v3.3.8 glew v2.1.0 1.1 glew eigen3 glew&#xff1a;直接下载预编译版本即可&#xff08;注意&#xff1a;查看自己电脑显卡支持的OpenGL版本&#xff0c;下载支持对应版本的glew&#xff0c;不然无法显示窗口&#xff09;&#xff1b;e…

人工智能、机器学习与深度学习:层层递进的技术解读

引言 在当今科技快速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;已经成为一个热门话题&#xff0c;几乎渗透到了我们生活的方方面面。从智能手机的语音助手&#xff0c;到自动驾驶汽车&#xff0c;再到医疗诊断中的图像识别&#xff0c;人工智能的应用正在改变我…

如何构建数仓中的维度拉链表

1 什么是拉链表 1&#xff09;拉链表是针对数据仓库设计中表存储数据的方式而定义的&#xff0c;顾名思义&#xff0c;所谓拉链&#xff0c;就是记录历史。记录一个事物从开始&#xff0c;一直到当前状态的所有变化的信息。 2&#xff09;使用拉链表既能满足反应数据的历史状…

后端SpringBoot学习项目-项目基础搭建

IDEA创建SpringBoot项目 大佬文章&#xff0c;有基础者可以直接打开参考。我这个记录的是纯纯小白的步骤 创建项目 按钮新建 点击按钮-----新建项目 弹窗配置–生成器 弹窗中选择生成器 ---- Spring Initializr ○ 服务器URL修改为 start.springboot.io start.aliyun.co…

Android CarrierConfig 参数项和正则匹配逻辑

背景 在编写CarrierConfig的时候经常出现配置不生效的情况&#xff0c;比如运营商支持大范围的imsi&#xff0c;或者是测试人员写卡位数的问题等等&#xff0c;因此就需要模式匹配&#xff08;包含但不限于正则表达式&#xff09;。 基本概念: 模式匹配涉及定义一个“模式”&a…

《青牛科技 GC6125:驱动芯片中的璀璨之星,点亮 IPcamera 和云台控制(替代 BU24025/ROHM)》

一、GC6125 在 IPcamera 和云台控制中的卓越表现 驱动能力&#xff1a;为监控注入强劲动力 GC6125 作为一款专为 IPcamera 和云台控制而设计的驱动芯片&#xff0c;拥有令人惊叹的驱动能力。在云台电机的驱动方面&#xff0c;它就像一位技艺精湛的驭手&#xff0c;能精准地掌控…

qt QUndoView详解

1、概述 QUndoView 是 Qt 框架中用于显示 QUndoStack&#xff08;撤销堆栈&#xff09;内容的视图类。它通常与 QUndoStack 一起使用&#xff0c;为用户提供了一个可视化的界面来查看和操作撤销/重做历史。QUndoView 可以显示堆栈中的每个命令&#xff0c;并允许用户通过界面进…