A Cost-Shaping Linear Program for Average-Cost Approximate Dynamic Programming with Performance Guarantees

Authors:
Daniela Pucci de Farias;Benjamin Van Roy
Affiliations:
Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge, Massachusetts 02139;Departments of Management Science and Engineering and Electrical Engineering, Stanford University, Stanford, California 94305
Venue:
Mathematics of Operations Research
Year:
2006

Citing 12
Cited 2

Feature-based methods for large scale dynamic programming

Machine Learning - Special issue on reinforcement learning
New linear program performance bounds for queueing networks

Journal of Optimization Theory and Applications - Special issue in honor of Yu-Chi Ho
Dynamic Programming and Optimal Control

Dynamic Programming and Optimal Control
Neuro-Dynamic Programming

Neuro-Dynamic Programming
Value iteration and optimization of multiclass queueing networks

Queueing Systems: Theory and Applications
Near-Optimal Reinforcement Learning in Polynomial Time

Machine Learning
Performance Evaluation and Policy Selection in Multiclass Networks

Discrete Event Dynamic Systems
The Linear Programming Approach to Approximate Dynamic Programming

Operations Research
On Constraint Sampling in the Linear Programming Approach to Approximate Dynamic Programming

Mathematics of Operations Research
Solving factored MDPs with continuous and discrete variables

UAI '04 Proceedings of the 20th conference on Uncertainty in artificial intelligence
A Price-Directed Approach to Stochastic Inventory/Routing

Operations Research
Efficient solution algorithms for factored MDPs

Journal of Artificial Intelligence Research

Approximate Dynamic Programming via a Smoothed Linear Program

Operations Research
Approximate Linear Programming for Average Cost MDPs

Mathematics of Operations Research

Quantified Score

Hi-index	0.00

Visualization

Abstract

We introduce a new algorithm based on linear programming for optimization of average-cost Markov decision processes (MDPs). The algorithm approximates the differential cost function of a perturbed MDP via a linear combination of basis functions. We establish a bound on the performance of the resulting policy that scales gracefully with the number of states without imposing the strong Lyapunov condition required by its counterpart in de Farias and Van Roy [de Farias, D. P., B. Van Roy. 2003. The linear programming approach to approximate dynamic programming. Oper. Res.51(6) 850--865]. We investigate implications of this result in the context of a queueing control problem.