Monte Carlo
Monte Carlo
Método del aprendizaje por refuerzo sin modelo basado en el muestreo, por lo que no requiere del
modelo para estimar sus funciones de valor. Al igual que el método de Monte Carlo este toma muestras
del entorno y realiza actualizaciones basadas en estimaciones actuales como en el método de
programación dinámica.
Se ajusta a las predicciones para coincidir con predicciones posteriores y más precisas sobre el futuro
antes de conocer el resultado final. Este método combina la ventaja de la programación dinámica y el
método de Monte Carlo, ya que permite realizar bootstrapping, es decir estimar valores con base a otras
estimaciones como en la (Programación Dinámica). A su vez, no requiere tener un modelo del ambiente
como en (Monte Carlo).
La diferencia temporal utiliza el error o diferencia entre predicciones continuas, en vez del lugar de
error entre la predicción y la salida final. Este aprende al existir cambios entre las predicciones sucesivas.
Su ventaja es que es completamente incrementable, siendo fácil de computar, además de que converge
más rápido y genera mejores predicciones.
La diferencia temporal más simple se denota de la siguiente manera:
El método de diferencia temporal se divide en dos clases, que se diferencia por unas características muy
importantes, que son las siguientes:
• Métodos on-policy: es el método que estima el valor de la política mientras es usado para el
control. Por lo tanto, esta se trata de mejorar la política que se utiliza en la toma de decisiones.
• Método off-policy: es el método la política y el control se utilizan por separado, donde la
estimación de la política pudiese ser por ejemplo el greedy y la política del comportamiento él
𝜺-greedy. Es decir, la política de control no puede tener relación con la política utilizada en el
algoritmo.
Los algoritmos principales para los métodos de diferencia temporal son: Q-learning y Sarsa.