Der Agent kann situativ,, eine Aktion,, aus einer Menge von verfügbaren Aktionen wählen, wodurch er in einen Folgezustand gelangt und eine Belohnung erhält.
Diese Grenze hat praktische Bedeutung bei deterministischen Prozessen, für welche geringe Änderungen des Anfangszustands zu großen Abweichungen in Folgezuständen führen – Prozesse, wie sie durch die Chaostheorie beschrieben werden.