当前位置: 首页 > news >正文

verl - 火山引擎大语言模型强化学习训练库

在这里插入图片描述

本文翻译整理自:https://github.com/volcengine/verl

文章目录

    • 一、关于 verl
      • 相关链接资源
      • 关键功能特性
    • 二、最新动态
    • 三、技术特性
    • 四、快速开始
    • 五、性能调优指南
    • 六、升级至 vLLM >= v0.8.2
    • 七、使用最新 SGLang
    • 八、硬件支持:AMD (ROCM 内核)
    • 九、基于 verl 的优秀项目


一、关于 verl

verl 是由 字节跳动 Seed 团队 发起、verl 社区维护的强化学习训练库,专为大语言模型(LLM)设计,具有灵活、高效且生产就绪的特点。

verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。


相关链接资源

  • github : https://github.com/volcengine/verl
  • 官网:https://team.doubao.com/
  • 官方文档:https://verl.readthedocs.io/en/latest/
  • Paper : https://arxiv.org/abs/2409.19256v2
  • Demo/在线试用:https://team.doubao.com/zh/special/doubao_1_5_pro
  • Community : https://join.slack.com/t/verlgroup/shared_invite/zt-2w5o4c3-yy0x2Q56s_VlGLsJ93A6vA
  • Blog : https://team.doubao.com/en/blog/最高提升20倍吞吐量-豆包大模型团队发布全新-rlhf-框架-现已开源
  • Twitter | Youtube | Slack

关键功能特性

  • 灵活扩展多种 RL 算法:混合控制器编程模型可灵活表示并高效执行复杂的训练后数据流,仅需几行代码即可构建 GRPO、PPO 等 RL 数据流
  • 模块化 API 无缝集成现有 LLM 基础设施:解耦计算与数据依赖,轻松集成 FSDP、Megatron-LM、vLLM、SGLang 等框架
  • 灵活设备映射:支持将模型部署到不同 GPU 组以实现高效资源利用和集群扩展
  • 开箱即用的 HuggingFace 模型支持
  • 前沿吞吐性能:集成 SOTA LLM 训练/推理引擎,提供 SOTA 级 RL 吞吐
  • 3D-HybridEngine 高效执行器模型分片:消除内存冗余,显著减少训练与生成阶段切换时的通信开销

二、最新动态

  • [2025/05] verl 将亮相 GOSIM x PyTorch Day 2025,巴黎见!
  • [2025/04] 我们将在 ICLR 2025 Expo、SCI-FM workshop 和 LMSys afterparty 举办最新训练技术与编程指南教程,新加坡见!
  • [2025/04] Seed-Thinking-v1.5 技术报告发布!基于 verl 训练的模型在 AIME 2024 达 86.7 分,Codeforces 55.0 分,GPQA 77.3 分,展现卓越的 STEM 与代码推理能力
  • [2025/04] 正在开源 VAPO(基于价值的增强 PPO)配方,该方案从 Qwen-32B-base 训练,在 AIME 2024 达 60.4 分,超越 DeepSeek-zero-32B 和 DAPO-32B
  • [2025/03] verl v0.3.0.post1 发布!详见 release note
  • [2025/03] DAPO 开源算法基于 Qwen2.5-32B 预训练模型在 AIME 2024 达 50 分,超越 DeepSeek 的 GRPO (DeepSeek-R1-Zero-Qwen-32B),完整训练代码现已在 recipe/dapo 提供

更多…

  • [2025/03] 我们在 vLLM 北京 Meetup 介绍 verl 编程模型,并在 SGLang-LMSYS Org Meetup 分享 verl 最新进展
  • [2025/02] verl v0.2.0.post2 发布!
  • [2025/01] Doubao-1.5-pro 发布,在 LLM & VLM 任务达到 SOTA 水平,其 RL 扩展预览模型使用 verl 训练,数学基准测试达 OpenAI O1 水平(AIME 70.0 pass@1)
  • [2025/03] 我们将在 EuroSys 2025 展示 verl(HybridFlow),鹿特丹见!
  • [2025/02] 在 字节跳动/NVIDIA/Anyscale Ray Meetup 展示 verl,圣何塞见!
  • [2024/12] verl 亮相 Ray Forward 2024,幻灯片已发布
  • [2024/10] verl 在 Ray Summit 展示,Youtube 视频可观看
  • [2024/12] 团队在 NeurIPS 2024 展示 Post-training LLMs: From Algorithms to Infrastructure,幻灯片和视频已发布
  • [2024/08] HybridFlow (verl) 被 EuroSys 2025 接收

三、技术特性

  • 训练引擎支持 FSDPMegatron-LM
  • 生成引擎支持 vLLMSGLangHF Transformers
  • 兼容 Hugging Face Transformers 和 Modelscope Hub 模型:Qwen-2.5、Llama3.1、Gemma2、DeepSeek-LLM 等
  • 监督微调支持
  • 强化学习算法支持:
    • PPO、GRPO、ReMax、REINFORCE++、RLOO、PRIME、DAPO、DrGRPO 等
    • 支持基于模型的奖励和基于函数的奖励(可验证奖励)
    • 支持视觉语言模型(VLM)和多模态 RL
  • 通过 DeepSpeed Ulysses 支持 Flash attention 2、序列打包、序列并行
  • 支持 LoRA 和 Liger-kernel
  • 可扩展至 700 亿参数模型和数百块 GPU
  • 实验追踪支持 wandb、swanlab、mlflow 和 tensorboard

四、快速开始

文档 : https://verl.readthedocs.io/en/latest/index.html"

快速入门:

  • 安装指南
  • 快速开始
  • 编程指南

PPO 示例分步指南:

  • 数据与奖励准备
    • 准备训练后数据
    • 实现数据集奖励函数
  • 理解 PPO 示例
    • PPO 示例架构
    • 配置说明
    • 运行 GSM8K 示例

可复现算法基线:

  • PPO, GRPO, ReMax

代码解析与高级用法(扩展):

  • PPO 训练器与工作节点
    • PPO Ray 训练器
    • PyTorch FSDP 后端
    • Megatron-LM 后端
  • 高级用法与扩展
    • Ray API 设计教程
    • 扩展其他 RL(HF) 算法
    • 添加 FSDP 后端模型
    • 添加 Megatron-LM 后端模型
    • 使用独立 GPU 资源部署

社区博客:

  • 使用verl进行GRPO分布式强化学习训练最佳实践
  • HybridFlow veRL 原文浅析
  • 最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!

五、性能调优指南

策略性 RL 算法的性能至关重要,我们编写了详细的性能调优指南帮助优化性能。


六、升级至 vLLM >= v0.8.2

使用 FSDP 作为训练后端时,verl 现已支持 vLLM>=0.8.2。请参考此文档获取安装指南和更多信息。请避免使用 vllm 0.7.x 版本,该版本存在可能导致 OOM 和意外错误的缺陷。


七、使用最新 SGLang

verl 已全面支持 SGLang,SGLang RL 小组正着力构建独特功能,包括多轮代理 RL、VLM RLHF、基于服务器的 RL 和部分生成。请参考此文档获取安装指南和更多信息。


八、硬件支持:AMD (ROCM 内核)

verl 现已支持将 FSDP 作为训练引擎(即将支持 Megatron),并集成 vLLM 和 SGLang 作为推理引擎。请参考此文档获取安装指南和更多信息。


九、基于 verl 的优秀项目

  • TinyZero:复现 DeepSeek R1 Zero 推理任务方案的代码库

  • DAPO:完全开源的 SOTA RL 算法,击败 DeepSeek-R1-zero-32B

  • SkyThought:NovaSky AI 团队为 Sky-T1-7B 进行的 RL 训练

  • simpleRL-reason:SimpleRL-Zoo:探索与驯服开放基础模型的零样本强化学习

  • Easy-R1:多模态 RL 训练框架

  • OpenManus-RL:为多代理环境设计的 LLM 代理 RL 调优框架

  • deepscaler:通过 GRPO 实现迭代上下文扩展

  • rllm:使用 verl-pipeline 进行异步 RL 训练

  • PRIME:通过隐式奖励进行过程强化

  • RAGEN:通用推理代理训练框架

  • Logic-RL:在 2K Tiny Logic Puzzle 数据集上复现 DeepSeek R1 Zero

  • Search-R1:结合推理与**搜索(工具调用)**的交错式 LLM RL

  • ReSearch:通过强化学习让 LLM 学会推理搜索

  • DeepRetrieval:通过 RL 让 LLM 操控真实搜索引擎检索器实现信息检索

  • Code-R1:使用可靠奖励复现 代码 R1 方案

  • Skywork-OR1:Skywork 开放推理器系列

  • ToRL:扩展工具集成的 RL


    2025-04-23(三)

http://www.xdnf.cn/news/213157.html

相关文章:

  • Wi-SUN与LoRa和NB-IoT通信技术的对比
  • AI+零售:智能推荐、无人店与供应链管理的未来
  • 基于STM32、HAL库的DS28E15P安全验证及加密芯片驱动程序设计
  • Kafka 消息可靠性深度解析:大流量与小流量场景下的设计哲学
  • [逆向工程]如何理解小端序?逆向工程中的字节序陷阱与实战解析
  • 搜索引擎中的检索模型(布尔模型、向量空间模型、概率模型、语言模型)
  • 贵族运动项目有哪些·棒球1号位
  • CSR社会责任报告是什么?CSR社会责任报告定义
  • C++ 如何计算两个gps 的距离
  • 基于 ARM 的自动跟拍云台设计
  • 【无标题】好用的远程链接插件
  • 水安题库:水利水电安全员ABC精选练习题
  • 阿里巴巴Qwen3发布:登顶全球开源模型之巅,混合推理模式重新定义AI效率
  • 如何个人HA服务器地址和长期密钥
  • 精益管理是什么?如何才能实现精益管理?
  • WinSW注册服务
  • n8n 工作流自动化工具, 幷与 Al Agent 进行集成工作流
  • CPU 空转解析
  • 5G技术在工业4.0中的应用:连接未来,驱动智能制造
  • Linux0.11系统调用:预备知识
  • 双向流热固耦合的收敛
  • ShaderToy学习笔记 05.3D旋转
  • 微信小程序 首页之轮播图和搜索框 代码分享
  • 每日算法-250429
  • 【每日八股】复习 MySQL Day3:锁
  • 从零开始学Python游戏编程45-类的继承2
  • 第十六届蓝桥杯 2025 C/C++组 25之和
  • WPF之TextBlock控件详解
  • 《解锁CSS Flex布局:重塑现代网页布局的底层逻辑》
  • 企业级私有化部署,内部聊天软件