YouTube 榜 · RL Top 100

1v10 AI Dodgeball (deep reinforcement learning)

AI Warehou：围绕Deep RL的多模态模型分享。

AI Warehouse · 2024-12-09 · 播放量 4M

AI Learns Red Light Green Light (reinforcement learning)

AI Warehou：围绕Deep RL的多模态模型分享。

AI Warehouse · 2025-08-30 · 播放量 4M

Reinforcement Learning in Production | New Bootcamp Launch

Vizuara：Deep RL专题，解读产品发布与能力边界。

Vizuara · 2026-04-16 · 播放量 3M

RL in Production | 8 Week Bootcamp to Master Reinforcement Learning in Production

Vizuara：Deep RL专题，改进偏好对齐与安全。

Vizuara · 2026-05-11 · 播放量 2M

AI Learns to Race Hurdles (deep reinforcement learning)

AI Warehou：围绕Deep RL的多模态模型分享。

AI Warehouse · 2025-11-24 · 播放量 2M

AI Learns to Sumo Wrestle (deep reinforcement learning)

AI Warehou：围绕Deep RL的多模态模型分享。

AI Warehouse · 2025-10-01 · 播放量 832K

My Multi-Agent Team with OpenClaw

Brian Case：多智能体专题，结合工具调用与推理。

Brian Casel · 2026-02-16 · 播放量 741K

The FASTEST introduction to Reinforcement Learning on the internet

Gonkee：Deep RL专题，讲解原理与上手路径。

Gonkee · 2024-12-23 · 播放量 460K

DeepSeek-R1 beats OpenAI benchmarks with Reinforcement Learning

Gaurav Sen：Deep RL专题，提供统一评测与对比。

Gaurav Sen · 2025-01-24 · 播放量 381K

#10

9 AI Concepts Explained in 7 minutes: AI Agents, RAGs, Tokenization, RLHF, Diffusion, LoRA...

ByteByteAI：RLHF专题，结合工具调用与推理。

ByteByteAI · 2026-02-05 · 播放量 343K

#11

Reinforcement Learning Trading Bot in Python | Train an AI Agent on Forex (EURUSD)

CodeTradin：Deep RL专题，结合工具调用与推理。

CodeTrading · 2025-12-12 · 播放量 267K

#12

Reinforcement Learning - My Algorithm vs State of the Art

Pezzza's W：围绕Deep RL的多模态模型分享。

Pezzza's Work · 2024-11-11 · 播放量 191K

#13

OpenAI’s Deep Research Team on Why Reinforcement Learning is the Future for AI Agents

Sequoia Ca：Deep RL专题，结合工具调用与推理。

Sequoia Capital · 2025-02-25 · 播放量 173K

#14

LLMs from Scratch – Practical Engineering from Base Model to PPO RLHF

freeCodeCa：PPO专题，改进偏好对齐与安全。

freeCodeCamp.org · 2025-09-23 · 播放量 172K

#15

Stanford CS234 Reinforcement Learning I Introduction to Reinforcement Learning I 2024 I Lecture 1

Stanford O：Deep RL专题，讲解原理与上手路径。

Stanford Online · 2024-10-30 · 播放量 159K

#16

Hands on Reinforcement Learning Bootcamp

Vizuara：围绕Deep RL的多模态模型分享。

Vizuara · 2025-07-15 · 播放量 140K

#17

Reinforcement learning sim-to-real policy trained in mujoco rotary inverted pendulum

Kevin Wood：围绕Deep RL的多模态模型分享。

Kevin Wood | Robotics & AI · 2026-03-18 · 播放量 135K

#18

AI Fish Evolve through Reinforcement Learning with Genetic Algorithms #programming #ai

CodeCrafte：围绕Deep RL的多模态模型分享。

CodeCraftedPhysics · 2025-11-14 · 播放量 134K

#19

MIT 6.S191 (2025): Reinforcement Learning

Alexander ：围绕Deep RL的多模态模型分享。

Alexander Amini · 2025-03-31 · 播放量 120K

#20

From Sim to Real: Can Reinforcement Learning Control a Real Robot - Powered by RDK X5 (Edge AI)

AI Researc：Deep RL专题，面向端侧低成本部署。

AI Researcher & Robotics Developer Frank Fu · 2026-03-04 · 播放量 118K

#21

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

AI Enginee：Deep RL专题，结合工具调用与推理。

AI Engineer · 2025-07-19 · 播放量 117K

#22

Reinforcement Learning for Agents - Will Brown, ML Researcher at Morgan Stanley

AI Enginee：Deep RL专题，结合工具调用与推理。

AI Engineer · 2025-03-07 · 播放量 115K

#23

Reinforcement learning is terrible – Andrej Karpathy

Dwarkesh C：Deep RL专题，介绍平台接口与集成。

Dwarkesh Clips · 2025-10-18 · 播放量 114K

#24

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 1: Class Intro

Stanford O：围绕Deep RL的多模态模型分享。

Stanford Online · 2025-12-08 · 播放量 100K

#25

I Trained an AI to Play Balatro Using Reinforcement Learning

Angel Vee：围绕Deep RL的多模态模型分享。

Angel Vee · 2025-12-08 · 播放量 98K

#26

Reinforcement Learning: Essential Concepts

StatQuest ：围绕Deep RL的多模态模型分享。

StatQuest with Josh Starmer · 2025-03-31 · 播放量 97K

#27

Reinforcement Learning from Human Feedback (RLHF) Explained

IBM Techno：RLHF专题，改进偏好对齐与安全。

IBM Technology · 2024-08-07 · 播放量 90K

#28

Stunting with Reinforcement Learning

RAI Instit：围绕Deep RL的多模态模型分享。

RAI Institute · 2025-02-27 · 播放量 74K

#29

LLM Fine-Tuning Course – From Supervised FT to RLHF, LoRA, and Multimodal

freeCodeCa：RLHF专题，改进偏好对齐与安全。

freeCodeCamp.org · 2026-03-10 · 播放量 70K

#30

🤖Andrew Tate Explains Q-Learning

Lazy Progr：围绕DQN的多模态模型分享。

Lazy Programmer · 2024-10-13 · 播放量 67K

#31

Reinforcement Learning - Computerphile

Computerph：围绕Deep RL的多模态模型分享。

Computerphile · 2025-06-26 · 播放量 64K

#32

Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Umar Jamil：Deep RL专题，拆解论文方法与实验。

Umar Jamil · 2025-01-21 · 播放量 62K

#33

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

StatQuest ：RLHF专题，改进偏好对齐与安全。

StatQuest with Josh Starmer · 2025-05-05 · 播放量 60K

#34

Proximal Policy Optimization (PPO) for LLMs Explained Intuitively

Julia Turc：PPO专题，讲解原理与上手路径。

Julia Turc · 2025-03-07 · 播放量 57K

#35

Stanford CS234 Reinforcement Learning I Tabular MDP Planning I 2024 I Lecture 2

Stanford O：Deep RL专题，介绍平台接口与集成。

Stanford Online · 2024-10-30 · 播放量 56K

#36

Reinforcement Learning with Neural Networks: Essential Concepts

StatQuest ：围绕Deep RL的多模态模型分享。

StatQuest with Josh Starmer · 2025-04-07 · 播放量 52K

#37

Reinforcement Learning

AGI Lambda：围绕Deep RL的多模态模型分享。

AGI Lambda · 2024-12-30 · 播放量 51K

#38

Architecting multi-agent systems

Google Clo：多智能体专题，结合工具调用与推理。

Google Cloud Tech · 2026-01-06 · 播放量 49K

#39

DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs

Julia Turc：Deep RL专题，介绍平台接口与集成。

Julia Turc · 2025-03-19 · 播放量 47K

#40

SESSION 1 | Multi-Agent Reinforcement Learning: Foundations and Modern Approaches | IIIA-CSIC Course

IIIA-CSIC：多智能体专题，结合工具调用与推理。

IIIA-CSIC · 2024-12-03 · 播放量 42K

#41

Stanford CS230 | Autumn 2025 | Lecture 5: Deep Reinforcement Learning

Stanford O：围绕Deep RL的多模态模型分享。

Stanford Online · 2025-10-31 · 播放量 39K

#42

Architecting Multi-Agent Systems With Andrew Ng

Sapphire V：多智能体专题，结合工具调用与推理。

Sapphire Ventures · 2025-08-21 · 播放量 36K

#43

Attempting to make AI learn a Real Life Task (Reinforcement Learning)

Gonkee：围绕Deep RL的多模态模型分享。

Gonkee · 2025-12-23 · 播放量 36K

#44

Implement Deep Q-Learning with PyTorch and Train Flappy Bird! | DQN PyTorch Beginners Tutorial #1

Johnny Cod：DQN专题，讲解原理与上手路径。

Johnny Code · 2024-06-17 · 播放量 35K

#45

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Luis Serra：Deep RL专题，改进偏好对齐与安全。

Luis Serrano Academy · 2024-06-21 · 播放量 34K

#46

Reinforcement learning with Unitree G1 humanoid - Dev w/ G1 P.5

sentdex：围绕Deep RL的多模态模型分享。

sentdex · 2025-07-25 · 播放量 32K

#47

Reinforcement Learning with Neural Networks: Mathematical Details

StatQuest ：围绕Deep RL的多模态模型分享。

StatQuest with Josh Starmer · 2025-04-14 · 播放量 31K

#48

Q-Learning Tutorial in Python - Reinforcement Learning

NeuralNine：DQN专题，讲解原理与上手路径。

NeuralNine · 2024-09-11 · 播放量 27K

#49

Build a multi-agent system | Hands On AI (Part 1)

Google Clo：多智能体专题，结合工具调用与推理。

Google Cloud Tech · 2026-03-21 · 播放量 27K

#50

How to finetune LLMs to THINK with Reinforcement Learning (GRPO from scratch!)

Neural Bre：围绕Deep RL的多模态模型分享。

Neural Breakdown with AVB · 2025-06-29 · 播放量 27K

#51

Simply Explaining Proximal Policy Optimization (PPO) | Deep Reinforcement Learning

Johnny Cod：围绕PPO的多模态模型分享。

Johnny Code · 2025-04-11 · 播放量 26K

#52

Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 2: Imitation Learning

Stanford O：围绕Deep RL的多模态模型分享。

Stanford Online · 2025-12-08 · 播放量 24K

#53

Fine-tuning LLMs on Human Feedback (RLHF + DPO)

Shaw Taleb：RLHF专题，改进偏好对齐与安全。

Shaw Talebi · 2025-03-03 · 播放量 24K

#54

Reinforcement Learning explained in simple and easy way! Important Machine Learning topics to know!

Keerti Pur：Deep RL专题，讲解原理与上手路径。

Keerti Purswani · 2024-12-29 · 播放量 23K

#55

Trying to teach my new model to run using reinforcement learning

Goatstream：Deep RL专题，介绍平台接口与集成。

Goatstream · 2024-08-02 · 播放量 20K

#56

Stanford CS234 Reinforcement Learning I Q learning and Function Approximation I 2024 I Lecture 4

Stanford O：Deep RL专题，介绍平台接口与集成。

Stanford Online · 2024-10-30 · 播放量 20K

#57

Reinforcement Learning Explained in 60 Seconds 🎮🤖

Analytics ：Deep RL专题，讲解原理与上手路径。

Analytics Vidhya · 2025-09-04 · 播放量 20K

#58

Deep Reinforcement Learning–Based Bipedal Robot Walking in MATLAB #RL #matlab #simulink #bipedal

TODAYS TEC：围绕Deep RL的多模态模型分享。

TODAYS TECH · 2025-12-23 · 播放量 20K

#59

RLHF Explained

Mark Henni：RLHF专题，改进偏好对齐与安全。

Mark Hennings · 2024-06-12 · 播放量 18K

#60

Bot de IA que APRENDE a Tradear | Q-Learning vs Trading Manual (Gratis)

Ignacio Ay：围绕DQN的多模态模型分享。

Ignacio Ayago | Trading con Bots · 2025-12-30 · 播放量 18K

#61

PPO Implementation from Scratch | Reinforcement Learning

Papers in ：PPO专题，演示代码实现与复现。

Papers in 100 Lines of Code · 2024-12-07 · 播放量 18K

#62

Easiest Reinforcement Learning Explanation You'll Ever See! 🤖

Python Sim：围绕Deep RL的多模态模型分享。

Python Simplified · 2025-11-14 · 播放量 17K

#63

Reinforcement Learning For Robots in Python: Isaac Lab Tutorial

NeuralNine：Deep RL专题，讲解原理与上手路径。

NeuralNine · 2025-10-10 · 播放量 16K

#64

Why Reinforcement Learning Will Change EVERYTHING in AI

Tiff In Te：Deep RL专题，介绍平台接口与集成。

Tiff In Tech · 2025-06-13 · 播放量 15K

#65

Reinforcement Learning with Human Feedback (RLHF) in 4 minutes

Sebastian ：RLHF专题，改进偏好对齐与安全。

Sebastian Raschka · 2025-02-08 · 播放量 15K

#66

Master Reinforcement Learning With These 3 Projects

Adam Lucek：围绕Deep RL的多模态模型分享。

Adam Lucek · 2024-10-17 · 播放量 15K

#67

Reinforcement Learning behind Humanoid Robot Explained

AGI Lambda：Deep RL专题，讲解原理与上手路径。

AGI Lambda · 2025-01-11 · 播放量 15K

#68

Reinforcement Learning Algorithms | Machine Learning Tutorial | TutorialsPoint

TutorialsP：Deep RL专题，讲解原理与上手路径。

TutorialsPoint · 2024-08-16 · 播放量 15K

#69

1. بالعربي المحاضرة الأولى في ال Reinforcement Learning بالعربي | مفاهيم أساسية

ELPRINCE：Deep RL专题，介绍平台接口与集成。

ELPRINCE · 2024-08-16 · 播放量 14K

#70

The ONLY DeepSeek GRPO/PPO video you'll EVER need (with examples and exercises) | RL Foundations

Depth Firs：PPO专题，扩展长视频时空理解。

Depth First · 2025-02-14 · 播放量 14K

#71

LLM Training & Reinforcement Learning from Google Engineer | SFT + RLHF | PPO vs GRPO vs DPO

Martin Is ：PPO专题，改进偏好对齐与安全。

Martin Is A Dad · 2025-03-12 · 播放量 14K

#72

Reinforcement Learning (RL) for LLMs

Natasha Ja：Deep RL专题，改进偏好对齐与安全。

Natasha Jaques · 2025-03-12 · 播放量 14K

#73

What Is Reinforcement Learning? 🧠🎮 #shorts

Naveed Sar：围绕Deep RL的多模态模型分享。

Naveed Sarwar · 2025-04-08 · 播放量 14K

#74

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Nathan Lam：围绕Deep RL的多模态模型分享。

Nathan Lambert · 2025-04-08 · 播放量 13K

#75

I Made Reinforcement Learning 1000x Faster

Joseph Sua：围绕Deep RL的多模态模型分享。

Joseph Suarez · 2025-08-17 · 播放量 11K

#76

Reinforcement Learning #1: Multi-Armed Bandits, Explore vs Exploit, Epsilon-Greedy, UCB

Zachary Hu：围绕Deep RL的多模态模型分享。

Zachary Huang · 2025-08-16 · 播放量 11K

#77

Deep RL Explained (in TF2)

base_thoma：Deep RL专题，讲解原理与上手路径。

base_thomas · 2024-12-24 · 播放量 11K

#78

MIT 6.S191: Reinforcement Learning

Alexander ：围绕Deep RL的多模态模型分享。

Alexander Amini · 2026-04-27 · 播放量 10K

#79

Intrusion Detection using Machine Learning | Multi-Agent Reinforcement Learning | Final Year Project

Ieee Xpert：多智能体专题，结合工具调用与推理。

Ieee Xpert · 2025-11-12 · 播放量 10K

#80

Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown

Berkeley R：多智能体专题，结合工具调用与推理。

Berkeley RDI · 2025-10-20 · 播放量 9K

#81

PPO - Proximal Policy Optimization paper explained in a min. #ppo #trpo #llm #trendingshorts #ainews

Paper in a：PPO专题，讲解原理与上手路径。

Paper in a Pod · 2025-03-18 · 播放量 9K

#82

The Amazing Origin of Reinforcement Learning

Art of the：围绕Deep RL的多模态模型分享。

Art of the Problem · 2024-08-15 · 播放量 9K

#83

Lecture 4 - Reinforcement Learning - Basics | Reasoning LLMs from Scratch

Vizuara：围绕Deep RL的多模态模型分享。

Vizuara · 2025-04-17 · 播放量 8K

#84

Reinforcement Learning: A (practical) introduction

Shaw Taleb：Deep RL专题，讲解原理与上手路径。

Shaw Talebi · 2026-01-25 · 播放量 8K

#85

Sergey Levine - Reinforcement Learning in the Age of Foundation Models - RLC 2024

Reinforcem：围绕Deep RL的多模态模型分享。

Reinforcement Learning Conference · 2024-10-01 · 播放量 8K

#86

why deep RL is IMPOSSIBLE to perfect

base_thoma：围绕Deep RL的多模态模型分享。

base_thomas · 2025-07-01 · 播放量 8K

#87

Agentic AI MOOC | UC Berkeley CS294-196 F25 | Multi-Agent Systems in Era of LLMs by Oriol Vinyals

Berkeley R：多智能体专题，结合工具调用与推理。

Berkeley RDI · 2025-11-18 · 播放量 8K

#88

Stanford CS234 Reinforcement Learning I Multi-Agent Game Playing I 2024 I Lecture 14

Stanford O：多智能体专题，结合工具调用与推理。

Stanford Online · 2024-10-30 · 播放量 8K

#89

LangGraph:17 Introduction to Multi-Agent System #llm #genai #aiagents #ai #genai #agent

Sunny Savi：多智能体专题，结合工具调用与推理。

Sunny Savita · 2025-03-13 · 播放量 7K

#90

Building AI Agents at Scale: Open Claw, ClawMax & Multi-Agent Systems Explained

The AI All：多智能体专题，结合工具调用与推理。

The AI Alliance · 2026-03-23 · 播放量 7K

#91

SESSION 2 | Multi-Agent Reinforcement Learning: Foundations and Modern Approaches | IIIA-CSIC Course

IIIA-CSIC：多智能体专题，结合工具调用与推理。

IIIA-CSIC · 2024-12-03 · 播放量 7K

#92

GRPO 2.0? DAPO LLM Reinforcement Learning Explained

AI Papers ：Deep RL专题，讲解原理与上手路径。

AI Papers Academy · 2025-03-25 · 播放量 7K

#93

Policy Gradient in 30 min

Zachary Hu：围绕策略梯度的多模态模型分享。

Zachary Huang · 2025-11-12 · 播放量 6K

#94

Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained

Outlier：PPO专题，讲解原理与上手路径。

Outlier · 2025-11-03 · 播放量 6K

#95

【人工智能】算力从来不是唯一瓶颈 | PPO之父 | 约翰·舒尔曼 | RLHF架构师 | Thinking Machines | Tinker微调API | 价值函数回归 | 算法巧思 | 强化学习

最佳拍档：PPO专题，改进偏好对齐与安全，围绕人工智能算力从来不是唯一瓶颈展开。

最佳拍档 · 2026-01-30 · 播放量 6K

#96

RLHF in 90 min

Zachary Hu：RLHF专题，改进偏好对齐与安全。

Zachary Huang · 2025-09-22 · 播放量 6K

#97

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

UZH Roboti：多智能体专题，结合工具调用与推理。

UZH Robotics and Perception Group · 2026-05-26 · 播放量 6K

#98

CODE Multi-Agent RL: 20x Code + ReDel + AgentScope

Discover A：多智能体专题，结合工具调用与推理。

Discover AI · 2024-08-12 · 播放量 6K

#99

Coding Ninjas 6 Month Advanced Certification in GenAI & Multi-Agent Systems

Coding Nin：多智能体专题，结合工具调用与推理。

Coding Ninjas by Sunrise Mentors Private Limited · 2025-08-12 · 播放量 5K

#100

AI Agent Lands Lunar on the Moon! | Deep Q-Learning | PyTorch | Reinforcement Learning | Gymnasium

Tutorial H：DQN专题，结合工具调用与推理。

Tutorial Horizon · 2025-02-20 · 播放量 5K