GRPO

如果你是首次使用 GRPO，请先参考 GRPO文档。

Megatron GRPO 当前已支持以下功能：

与 ms-swift GRPO 相同，Megatron GRPO batch size 相关的参数均以 completion-level 为单位，即表示模型生成的 completion 数量，而非 prompt 数量。

参数对比

下表对比了 ms-swift 和 Megatron-SWIFT 中批量相关参数的对应关系：

ms-swift 参数	Megatron-SWIFT 参数	说明
`per_device_train_batch_size`	`micro_batch_size`	每个DP组的训练批次大小（completion-level）
`gradient_accumulation_steps`	-	梯度累积步数，在 Megatron-SWIFT 中已包含在 `global_batch_size` 的计算中
-	`global_batch_size`	全局批次大小（completion-level） Megatron-SWIFT: `micro_batch_size × dp_size × gradient_accumulation_steps` ms-swift: `per_device_train_batch_size × world_size × gradient_accumulation_steps`
`num_generations`	`num_generations`	每个 prompt 生成的 completion 数量
`steps_per_generation`	`steps_per_generation`	Rollout 批次大小相对于训练批次大小的倍数注意：在 ms-swift 中需为 `gradient_accumulation_steps` 的整数倍
`generation_batch_size`	`generation_batch_size`	Rollout 阶段的批次大小（completion-level），需为 `global_batch_size` 的整数倍

以下公式用于计算 Megatron GRPO 中的批量：

数据并行大小：dp_size = world_size / (TP × PP × CP)
全局批次大小：global_batch_size = micro_batch_size × dp_size × gradient_accumulation_steps
生成批次大小：generation_batch_size = global_batch_size × steps_per_generation
Rollout Prompt 数量：num_rollout_prompts = generation_batch_size / num_generations
训练 Prompt 数量：num_train_prompts = global_batch_size / num_generations
每个 DP group 的训练 Prompt 数量：num_prompts_per_dp_group = global_batch_size / num_generations / dp_size

注意：在 Megatron GRPO 中，每个 DP group 的训练 Prompt 数量须满足 num_prompts_per_dp_group 是 micro_batch_size的整数倍，以确保训练批次能够正确分配。

更多参数请参考命令行文档

训练脚本请参考Megatron GRPO 脚本