# 一、PPO 解析
为了实现稳定的 RLHF,OpenAI 构建了 PPO(Proximal Policy Optimization,近端策略优化)机制,加入了 Critic、CLIP 操作和 Reference Model,在保证 策略
2025-09-03