Was beschreiben markov decision processes?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wann ist ein Zustand $S_t$ ein Markov-Zustand?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Sei $s$ ein Markov-Zustand und $s’$ ein Nachfolgezustand. Wie ist die transition probability definiert?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was beschreibt die state transition matrix?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist ein markov process formal?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist ein markov reward process?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist ein markov reward process formal?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was versteht man unter einem Return vom Zeitschritt t?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Definiere den Return vom Zeitschritt t formal!
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist die value function?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wie lautet die Gleichung für die state value function $v(s)$ eines Markov reward process gestartet vom Zustand s?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist ein Markov decision process?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist ein Markov decision process formal?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist eine policy $\pi$?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist eine state-value function?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist eine action-value function?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist eine optimal state-value function?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Was ist eine optimal action-value function?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wann ist eine policy für ein Markov decision process optimal?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Geben Sie die vereinfachte Abschätzung der Bellman optimality equation für $Q^\star$ an!
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wie wird Q Learning formal definiert?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Welche Werte kann die learning rate $\alpha$ annehmen?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wie wird die policy in der Epsilon-greedy Action Selection definiert?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.
Wie wird die policy in der Boltzmann action selection definiert?
Nur angemeldete Nutzer dürfen die Antwort sehen. Hier geht's zur kostenlosen Registrierung.