Approximate robust policy iteration using multilayer perceptron neural networks for discounted infinite-horizon Markov decision processes with uncertain correlated transition matrices

Authors:
Baohua Li;Jennie Si
Affiliations:
Arkansas Institute for Nanomaterial Science and Engineering, University of Arkansas, Fayetteville, AR;Department of Electrical Engineering, Arizona State University, Tempe, AZ
Venue:
IEEE Transactions on Neural Networks
Year:
2010

Citing 7
Cited 0

Probability, random processes, and estimation theory for engineers

Probability, random processes, and estimation theory for engineers
Bounded-parameter Markov decision process

Artificial Intelligence
Neural Networks: A Comprehensive Foundation

Neural Networks: A Comprehensive Foundation
Markov Decision Processes: Discrete Stochastic Dynamic Programming

Markov Decision Processes: Discrete Stochastic Dynamic Programming
Convex Optimization

Convex Optimization
Handbook of Learning and Approximate Dynamic Programming (IEEE Press Series on Computational Intelligence)

Handbook of Learning and Approximate Dynamic Programming (IEEE Press Series on Computational Intelligence)
Robust Control of Markov Decision Processes with Uncertain Transition Matrices

Operations Research

Quantified Score

Hi-index	0.00

Visualization

Abstract

We study finite-state, finite-action, discounted infinite-horizon Markov decision processes with uncertain correlated transition matrices in deterministic policy spaces. Existing robust dynamic programming methods cannot be extended to solving this class of general problems. In this paper, based on a robust optimality criterion, an approximate robust policy iteration using a multilayer perceptron neural network is proposed. It is proven that the proposed algorithm converges in finite iterations, and it converges to a stationary optimal or near-optimal policy in a probability sense. In addition, we point out that sometimes even a direct enumeration may not be applicable to addressing this class of problems. However, a direct enumeration based on our proposed maximum value approximation over the parameter space is a feasible approach. We provide further analysis to show that our proposed algorithm is more efficient than such an enumeration method for various scenarios.