verl - 火山引擎大语言模型强化学习训练库
本文翻译整理自:https://github.com/volcengine/verl
文章目录
- 一、关于 verl
- 相关链接资源
- 关键功能特性
- 二、最新动态
- 三、技术特性
- 四、快速开始
- 五、性能调优指南
- 六、升级至 vLLM >= v0.8.2
- 七、使用最新 SGLang
- 八、硬件支持:AMD (ROCM 内核)
- 九、基于 verl 的优秀项目
一、关于 verl
verl 是由 字节跳动 Seed 团队 发起、verl 社区维护的强化学习训练库,专为大语言模型(LLM)设计,具有灵活、高效且生产就绪的特点。
verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。
相关链接资源
- github : https://github.com/volcengine/verl
- 官网:https://team.doubao.com/
- 官方文档:https://verl.readthedocs.io/en/latest/
- Paper : https://arxiv.org/abs/2409.19256v2
- Demo/在线试用:https://team.doubao.com/zh/special/doubao_1_5_pro
- Community : https://join.slack.com/t/verlgroup/shared_invite/zt-2w5o4c3-yy0x2Q56s_VlGLsJ93A6vA
- Blog : https://team.doubao.com/en/blog/最高提升20倍吞吐量-豆包大模型团队发布全新-rlhf-框架-现已开源
- Twitter | Youtube | Slack
关键功能特性
- 灵活扩展多种 RL 算法:混合控制器编程模型可灵活表示并高效执行复杂的训练后数据流,仅需几行代码即可构建 GRPO、PPO 等 RL 数据流
- 模块化 API 无缝集成现有 LLM 基础设施:解耦计算与数据依赖,轻松集成 FSDP、Megatron-LM、vLLM、SGLang 等框架
- 灵活设备映射:支持将模型部署到不同 GPU 组以实现高效资源利用和集群扩展
- 开箱即用的 HuggingFace 模型支持
- 前沿吞吐性能:集成 SOTA LLM 训练/推理引擎,提供 SOTA 级 RL 吞吐
- 3D-HybridEngine 高效执行器模型分片:消除内存冗余,显著减少训练与生成阶段切换时的通信开销
二、最新动态
- [2025/05] verl 将亮相 GOSIM x PyTorch Day 2025,巴黎见!
- [2025/04] 我们将在 ICLR 2025 Expo、SCI-FM workshop 和 LMSys afterparty 举办最新训练技术与编程指南教程,新加坡见!
- [2025/04] Seed-Thinking-v1.5 技术报告发布!基于 verl 训练的模型在 AIME 2024 达 86.7 分,Codeforces 55.0 分,GPQA 77.3 分,展现卓越的 STEM 与代码推理能力
- [2025/04] 正在开源 VAPO(基于价值的增强 PPO)配方,该方案从 Qwen-32B-base 训练,在 AIME 2024 达 60.4 分,超越 DeepSeek-zero-32B 和 DAPO-32B
- [2025/03] verl v0.3.0.post1 发布!详见 release note
- [2025/03] DAPO 开源算法基于 Qwen2.5-32B 预训练模型在 AIME 2024 达 50 分,超越 DeepSeek 的 GRPO (DeepSeek-R1-Zero-Qwen-32B),完整训练代码现已在
recipe/dapo
提供
更多…
- [2025/03] 我们在 vLLM 北京 Meetup 介绍 verl 编程模型,并在 SGLang-LMSYS Org Meetup 分享 verl 最新进展
- [2025/02] verl v0.2.0.post2 发布!
- [2025/01] Doubao-1.5-pro 发布,在 LLM & VLM 任务达到 SOTA 水平,其 RL 扩展预览模型使用 verl 训练,数学基准测试达 OpenAI O1 水平(AIME 70.0 pass@1)
- [2025/03] 我们将在 EuroSys 2025 展示 verl(HybridFlow),鹿特丹见!
- [2025/02] 在 字节跳动/NVIDIA/Anyscale Ray Meetup 展示 verl,圣何塞见!
- [2024/12] verl 亮相 Ray Forward 2024,幻灯片已发布
- [2024/10] verl 在 Ray Summit 展示,Youtube 视频可观看
- [2024/12] 团队在 NeurIPS 2024 展示 Post-training LLMs: From Algorithms to Infrastructure,幻灯片和视频已发布
- [2024/08] HybridFlow (verl) 被 EuroSys 2025 接收
三、技术特性
- 训练引擎支持 FSDP 和 Megatron-LM
- 生成引擎支持 vLLM、SGLang 和 HF Transformers
- 兼容 Hugging Face Transformers 和 Modelscope Hub 模型:Qwen-2.5、Llama3.1、Gemma2、DeepSeek-LLM 等
- 监督微调支持
- 强化学习算法支持:
- PPO、GRPO、ReMax、REINFORCE++、RLOO、PRIME、DAPO、DrGRPO 等
- 支持基于模型的奖励和基于函数的奖励(可验证奖励)
- 支持视觉语言模型(VLM)和多模态 RL
- 通过 DeepSpeed Ulysses 支持 Flash attention 2、序列打包、序列并行
- 支持 LoRA 和 Liger-kernel
- 可扩展至 700 亿参数模型和数百块 GPU
- 实验追踪支持 wandb、swanlab、mlflow 和 tensorboard
四、快速开始
文档 : https://verl.readthedocs.io/en/latest/index.html"
快速入门:
- 安装指南
- 快速开始
- 编程指南
PPO 示例分步指南:
- 数据与奖励准备
- 准备训练后数据
- 实现数据集奖励函数
- 理解 PPO 示例
- PPO 示例架构
- 配置说明
- 运行 GSM8K 示例
可复现算法基线:
- PPO, GRPO, ReMax
代码解析与高级用法(扩展):
- PPO 训练器与工作节点
- PPO Ray 训练器
- PyTorch FSDP 后端
- Megatron-LM 后端
- 高级用法与扩展
- Ray API 设计教程
- 扩展其他 RL(HF) 算法
- 添加 FSDP 后端模型
- 添加 Megatron-LM 后端模型
- 使用独立 GPU 资源部署
社区博客:
- 使用verl进行GRPO分布式强化学习训练最佳实践
- HybridFlow veRL 原文浅析
- 最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!
五、性能调优指南
策略性 RL 算法的性能至关重要,我们编写了详细的性能调优指南帮助优化性能。
六、升级至 vLLM >= v0.8.2
使用 FSDP 作为训练后端时,verl 现已支持 vLLM>=0.8.2。请参考此文档获取安装指南和更多信息。请避免使用 vllm 0.7.x 版本,该版本存在可能导致 OOM 和意外错误的缺陷。
七、使用最新 SGLang
verl 已全面支持 SGLang,SGLang RL 小组正着力构建独特功能,包括多轮代理 RL、VLM RLHF、基于服务器的 RL 和部分生成。请参考此文档获取安装指南和更多信息。
八、硬件支持:AMD (ROCM 内核)
verl 现已支持将 FSDP 作为训练引擎(即将支持 Megatron),并集成 vLLM 和 SGLang 作为推理引擎。请参考此文档获取安装指南和更多信息。
九、基于 verl 的优秀项目
-
TinyZero:复现 DeepSeek R1 Zero 推理任务方案的代码库
-
DAPO:完全开源的 SOTA RL 算法,击败 DeepSeek-R1-zero-32B
-
SkyThought:NovaSky AI 团队为 Sky-T1-7B 进行的 RL 训练
-
simpleRL-reason:SimpleRL-Zoo:探索与驯服开放基础模型的零样本强化学习
-
Easy-R1:多模态 RL 训练框架
-
OpenManus-RL:为多代理环境设计的 LLM 代理 RL 调优框架
-
deepscaler:通过 GRPO 实现迭代上下文扩展
-
rllm:使用 verl-pipeline 进行异步 RL 训练
-
PRIME:通过隐式奖励进行过程强化
-
RAGEN:通用推理代理训练框架
-
Logic-RL:在 2K Tiny Logic Puzzle 数据集上复现 DeepSeek R1 Zero
-
Search-R1:结合推理与**搜索(工具调用)**的交错式 LLM RL
-
ReSearch:通过强化学习让 LLM 学会推理与搜索
-
DeepRetrieval:通过 RL 让 LLM 操控真实搜索引擎和检索器实现信息检索
-
Code-R1:使用可靠奖励复现 代码 R1 方案
-
Skywork-OR1:Skywork 开放推理器系列
-
ToRL:扩展工具集成的 RL
2025-04-23(三)