11-MDP-QLearning

Question 1

MDP

Frage:

Was beschreiben markov decision processes?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 2

Markov Property

Frage:

Wann ist ein Zustand $S_t$ ein Markov-Zustand?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 3

transition probability

Frage:

Sei $s$ ein Markov-Zustand und $s’$ ein Nachfolgezustand. Wie ist die transition probability definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 4

State Transition Matrix

Frage:

Was beschreibt die state transition matrix?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 5

Markov Process - Formal

Frage:

Was ist ein markov process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 6

Markov Reward Process

Frage:

Was ist ein markov reward process?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 7

Markov Reward Process - Formal

Frage:

Was ist ein markov reward process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 8

Return

Frage:

Was versteht man unter einem Return vom Zeitschritt t?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 9

Return - Formal

Frage:

Definiere den Return vom Zeitschritt t formal!

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 10

Value Function

Frage:

Was ist die value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 11

Value Function - MRP

Frage:

Wie lautet die Gleichung für die state value function $v(s)$ eines Markov reward process gestartet vom Zustand s?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 12

Markov decision process

Frage:

Was ist ein Markov decision process?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 13

Markov decision process - Formal

Frage:

Was ist ein Markov decision process formal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 14

policy

Frage:

Was ist eine policy $\pi$?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 15

state-value function

Frage:

Was ist eine state-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 16

action-value function

Frage:

Was ist eine action-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 17

optimal state-value function

Frage:

Was ist eine optimal state-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 18

optimal action-value function

Frage:

Was ist eine optimal action-value function?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 19

optimal policy

Frage:

Wann ist eine policy für ein Markov decision process optimal?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 20

Bellman optimality equation

Frage:

Geben Sie die vereinfachte Abschätzung der Bellman optimality equation für $Q^\star$ an!

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 21

Q Learning - Formal

Frage:

Wie wird Q Learning formal definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 22

learning rate

Frage:

Welche Werte kann die learning rate $\alpha$ annehmen?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 23

Epsilon-greedy Action Selection

Frage:

Wie wird die policy in der Epsilon-greedy Action Selection definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

Question 24

Boltzmann action selection

Frage:

Wie wird die policy in der Boltzmann action selection definiert?

Antwort:

Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.

11-MDP-QLearning

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Frage:

Antwort:

Kommentare