Cosine Policy Iteration for Solving Infinite-Horizon Markov Decision Processes

Authors:
Juan Frausto-Solis;Elizabeth Santiago;Jaime Mora-Vargas
Affiliations:
Tecnológico de Monterrey Campus Cuernavaca, Xochitepec, México 62790;Tecnológico de Monterrey Campus Cuernavaca, Xochitepec, México 62790;Tecnológico de Monterrey Campus Estado de, México
Venue:
MICAI '09 Proceedings of the 8th Mexican International Conference on Artificial Intelligence
Year:
2009

Citing 6
Cited 0

Linear programming 1: introduction

Linear programming 1: introduction
Markov Decision Processes: Discrete Stochastic Dynamic Programming

Markov Decision Processes: Discrete Stochastic Dynamic Programming
Dynamic Programming

Dynamic Programming
Convergence Properties of Policy Iteration

SIAM Journal on Control and Optimization
Policy iteration for decentralized control of Markov decision processes

Journal of Artificial Intelligence Research
Topological value iteration algorithm for Markov decision processes

IJCAI'07 Proceedings of the 20th international joint conference on Artifical intelligence

Quantified Score

Hi-index	0.00

Visualization

Abstract

Police Iteration (PI) is a widely used traditional method for solving Markov Decision Processes (MDPs). In this paper, the cosine policy iteration (CPI) method for solving complex problems formulated as infinite-horizon MDPs is proposed. CPI combines the advantages of two methods: i) Cosine Simplex Method (CSM) which is based on the Karush, Kuhn, and Tucker (KKT) optimality conditions and finds rapidly an initial policy close to the optimal solution and ii) PI which is able to achieve the global optimum. In order to apply CSM to this kind of problems, a well- known LP formulation is applied and particular features are derived in this paper. Obtained results show that the application of CPI solves MDPs in a lower number of iterations that the traditional PI.