A New Learning Algorithm for Optimal Stopping

Authors:
Vivek S. Borkar;Jervis Pinto;Tarun Prabhu
Affiliations:
Tata Institute of Fundamental Research, Mumbai, India 400005;St. Francis Institute of Technology, Mumbai, India 400103 and School of Electrical Engineering and Computer Science, Oregon State University, Corvallis, USA 97331;St. Francis Institute of Technology, Mumbai, India 400103 and School of Computing, University of Utah, Salt Lake City, USA 84112
Venue:
Discrete Event Dynamic Systems
Year:
2009

Citing 17
Cited 1

Convergent activation dynamics in continuous time networks

Neural Networks
Stochastic approximation with two time scales

Systems & Control Letters
The O.D. E. Method for Convergence of Stochastic Approximation and Reinforcement Learning

SIAM Journal on Control and Optimization
Optimization by Vector Space Methods

Optimization by Vector Space Methods
Introduction to Reinforcement Learning

Introduction to Reinforcement Learning
Neuro-Dynamic Programming

Neuro-Dynamic Programming
Linear Programming Formulation for Optimal Stopping Problems

SIAM Journal on Control and Optimization
On Actor-Critic Algorithms

SIAM Journal on Control and Optimization
The Linear Programming Approach to Approximate Dynamic Programming

Operations Research
Pricing American Options: A Duality Approach

Operations Research
Interpolation-based Q-learning

ICML '04 Proceedings of the twenty-first international conference on Machine learning
On Constraint Sampling in the Linear Programming Approach to Approximate Dynamic Programming

Mathematics of Operations Research
A Generalized Kalman Filter for Fixed Point Approximation and Efficient Temporal-Difference Learning

Discrete Event Dynamic Systems
Function-approximation-based importance sampling for pricing American options

WSC '04 Proceedings of the 36th conference on Winter simulation
Primal-Dual Simulation Algorithm for Pricing Multidimensional American Options

Management Science
Adaptive Importance Sampling Technique for Markov Chains Using Stochastic Approximation

Operations Research
Regression methods for pricing complex American-style options

IEEE Transactions on Neural Networks

Pathwise Optimization for Optimal Stopping Problems

Management Science

Quantified Score

Hi-index	0.00

Visualization

Abstract

A linear programming formulation of the optimal stopping problem for Markov decision processes is approximated using linear function approximation. Using this formulation, a reinforcement learning scheme based on a primal-dual method and incorporating a sampling device called `split sampling' is proposed and analyzed. An illustrative example from option pricing is also included.