查看指标方法与数据说明
#37

Reinforcement Learning

AGI Lambda:围绕Deep RL的多模态模型分享。

AGI Lambda · 2024-12-30 · 播放量 51K

#59

RLHF Explained

Mark Henni:RLHF专题,改进偏好对齐与安全。

Mark Hennings · 2024-06-12 · 播放量 18K

#77

Deep RL Explained (in TF2)

base_thoma:Deep RL专题,讲解原理与上手路径。

base_thomas · 2024-12-24 · 播放量 11K

#93

Policy Gradient in 30 min

Zachary Hu:围绕策略梯度的多模态模型分享。

Zachary Huang · 2025-11-12 · 播放量 6K

#96

RLHF in 90 min

Zachary Hu:RLHF专题,改进偏好对齐与安全。

Zachary Huang · 2025-09-22 · 播放量 6K