Unlock: Agentic RL and Tool Use

LLMs as multi-step policies: observations, tool calls, environment feedback, sparse rewards, credit assignment, and why agent training differs from single-turn RLHF.

297 Prerequisites0 Mastered0 Working216 Gaps

Prerequisite mastery27%

Recommended probe

Floating-Point Arithmetic is your weakest prerequisite with available questions. You haven't been assessed on this topic yet.

Agentic RL and Tool UseTARGET

Floating-Point ArithmeticAxiomsWEAKEST

Not assessed3 questions

Graph Neural NetworksAdvanced

Not assessed4 questions

Numerical Linear AlgebraFoundations

Not assessed1 question

Markov Decision ProcessesCore

Not assessed3 questions

Policy Gradient TheoremAdvanced

Not assessed8 questions

Offline Reinforcement LearningAdvanced

Not assessed2 questions

Video World ModelsFrontier

No quiz

World Models and PlanningResearch

No quiz