11-MDP-QLearning

MDP

Frage:

Was beschreiben markov decision processes?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov Property

Frage:

Wann ist ein Zustand $S_t$ ein Markov-Zustand?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

transition probability

Frage:

Sei $s$ ein Markov-Zustand und $s’$ ein Nachfolgezustand. Wie ist die transition probability definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

State Transition Matrix

Frage:

Was beschreibt die state transition matrix?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov Process - Formal

Frage:

Was ist ein markov process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov Reward Process

Frage:

Was ist ein markov reward process?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov Reward Process - Formal

Frage:

Was ist ein markov reward process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Return

Frage:

Was versteht man unter einem Return vom Zeitschritt t?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Return - Formal

Frage:

Definiere den Return vom Zeitschritt t formal!

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Value Function

Frage:

Was ist die value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Value Function - MRP

Frage:

Wie lautet die Gleichung für die state value function $v(s)$ eines Markov reward process gestartet vom Zustand s?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov decision process

Frage:

Was ist ein Markov decision process?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Markov decision process - Formal

Frage:

Was ist ein Markov decision process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

policy

Frage:

Was ist eine policy $\pi$?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

state-value function

Frage:

Was ist eine state-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

action-value function

Frage:

Was ist eine action-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

optimal state-value function

Frage:

Was ist eine optimal state-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

optimal action-value function

Frage:

Was ist eine optimal action-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

optimal policy

Frage:

Wann ist eine policy für ein Markov decision process optimal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Bellman optimality equation

Frage:

Geben Sie die vereinfachte Abschätzung der Bellman optimality equation für $Q^\star$ an!

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Q Learning - Formal

Frage:

Wie wird Q Learning formal definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

learning rate

Frage:

Welche Werte kann die learning rate $\alpha$ annehmen? 

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Epsilon-greedy Action Selection

Frage:

Wie wird die policy in der Epsilon-greedy Action Selection definiert? 

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Boltzmann action selection

Frage:

Wie wird die policy in der Boltzmann action selection definiert? 

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.