A sampled fictitious play based learning algorithm for infinite horizon Markov decision processes

Authors:
Esra Sisikoglu;Marina A. Epelman;Robert L. Smith
Affiliations:
The University of Missouri, Columbia, MO;The University of Michigan, Arbor, MI;The University of Michigan, Ann Arbor, MI
Venue:
Proceedings of the Winter Simulation Conference
Year:
2011

Citing 13
Cited 0

Finite-sample convergence rates for Q-learning and indirect algorithms

Proceedings of the 1998 conference on Advances in neural information processing systems II
Convergence Results for Single-Step On-PolicyReinforcement-Learning Algorithms

Machine Learning
Markov Decision Processes: Discrete Stochastic Dynamic Programming

Markov Decision Processes: Discrete Stochastic Dynamic Programming
Introduction to Reinforcement Learning

Introduction to Reinforcement Learning
Neuro-Dynamic Programming

Neuro-Dynamic Programming
Near-Optimal Reinforcement Learning in Polynomial Time

Machine Learning
An Adaptive Sampling Algorithm for Solving Markov Decision Processes

Operations Research
A Fictitious Play Approach to Large-Scale Optimization

Operations Research
An intrinsic reward mechanism for efficient exploration

ICML '06 Proceedings of the 23rd international conference on Machine learning
Adaptive stepsizes for recursive estimation with applications in approximate dynamic programming

Machine Learning
Simulation-based Algorithms for Markov Decision Processes (Communications and Control Engineering)

Simulation-based Algorithms for Markov Decision Processes (Communications and Control Engineering)
Approximate Dynamic Programming: Solving the Curses of Dimensionality (Wiley Series in Probability and Statistics)

Approximate Dynamic Programming: Solving the Curses of Dimensionality (Wiley Series in Probability and Statistics)
Sampled fictitious play for approximate dynamic programming

Computers and Operations Research

Quantified Score

Hi-index	0.00

Visualization

Abstract

Using Sampled Fictitious Play (SFP) concepts, we develop SFPL: Sampled Fictitious Play Learning --- a learning algorithm for solving discounted homogeneous Markov Decision Problems where the transition probabilities are unknown and need to be learned via simulation or direct observation of the system in real time. Thus, SFPL simultaneously updates the estimates of the unknown transition probabilities and the estimates of optimal value and optimal action in the observed state. In the spirit of SFP, the action after each transition is selected by sampling from the empirical distribution of previous optimal action estimates for the current state. The resulting algorithm is provably convergent. We compare its performance with other learning methods, including SARSA and Q-learning.