multi_step_grpo 和 grpo 的本质区别？

请问multi_step_grpo 和 grpo这2个算法有实质区别吗？
我理解mutistep主要是由生成experience的workflow控制，对于同一个workflow，一次生成多个step的experience，grpo和multi_step_grpo 的区别在哪里？
目前看起来grpo也能训练多step agent react模式的？