分类: LLM | liuliAI

Life is Long, I'm trying not to slow us down

文章分类

# 一、PPO 解析为了实现稳定的 RLHF，OpenAI 构建了 PPO（Proximal Policy Optimization，近端策略优化）机制，加入了 Critic、CLIP 操作和 Reference Model，在保证策略

2025-09-03 LLM

LLM