Life is Long, I'm trying not to slow us down
从DPO、PPO、GRPO到DAPO再到GSPO 从DPO、PPO、GRPO到DAPO再到GSPO
# 一、PPO 解析 为了实现稳定的 RLHF,OpenAI 构建了 PPO(Proximal Policy Optimization,近端策略优化)机制,加入了 Critic、CLIP 操作和 Reference Model,在保证 策略
2025-09-03