Mathematics of Online Decision Making

Program

Theory of Reinforcement Learning

Date

Monday, Oct. 26 – Friday, Oct. 30, 2020

Back to calendar

All talks are listed in Pacific Time (PDT).

8:50 – 9 a.m.

Opening Remarks

9 – 9:30 a.m.

Online Multiserver Convex Chasing and Optimization

Yuval Rabani (Hebrew University of Jerusalem)

9:30 – 10 a.m.

Multi-Task Optimal Experiment Design

Steffen Grunewalder (Lancaster University)

10 – 10:30 a.m.

Selfish Robustness and Equilibria in Multi-Player Bandits

Vianney Perchet (ENSAE & Criteo AI Lab)

10:30 – 11 a.m.

Discussion

11 – 11:30 a.m.

Break

11:30 a.m. – 12 p.m.

Pure Exploration Problems

Wouter Koolen (Centrum Wiskunde & Informatica)

12 – 12:30 p.m.

Gradient Descent-Ascent Provably Converges to Strict Local Minmax Equilibria with a Finite Timescale Separation

Lillian Ratliff (University of Washington)

12:30 – 1 p.m.

Learning Outcomes in Queueing Systems

Eva Tardos (Cornell)

1 – 1:30 p.m.

Discussion

9 – 9:30 a.m.

Pandora's Box with Correlations: Learning and Approximation

Shuchi Chawla (University of Wisconsin, Madison)

9:30 – 10 a.m.

Regret Minimization for Stochastic Shortest Paths

Yishay Mansour (Tel Aviv University)

10 – 10:30 a.m.

Robust Algorithms for Secretaries and Bandits

Anupam Gupta

10:30 – 11 a.m.

Discussion

11 – 11:30 a.m.

Break

11:30 a.m. – 12 p.m.

The Non-Stochastic Control Framework

Naman Agarwal (Google)

12 – 12:30 p.m.

Competitive Algorithms for Online Control

Yisong Yue (Caltech)

12:30 – 1 p.m.

Discussion

9 – 9:30 a.m.

A Unifying View of Optimism in Episodic Reinforcement Learning

Ciara Pike-Burke (Imperial College London)

9:30 – 10 a.m.

On the Complexity of Learning Good Policies With and Without Rewards

Emilie Kaufmann (CNRS & University of Lille)

10 – 10:30 a.m.

Model-Based Reinforcement Learning with Value-Targeted Regression

Mengdi Wang (Princeton University)

10:30 – 11 a.m.

Discussion

11 a.m. – 12 p.m.

Gather.town

9 – 9:30 a.m.

A Generalization Bound for Online Variational Inference

Pierre Alquier (Riken AIP)

9:30 – 10 a.m.

Beating the Curse of Dimensionality in High-Dimensional Optimal Stopping

David Goldberg (Cornell ORIE)

10 – 10:30 a.m.

Online Learning via Offline Greedy Algorithms: Applications in Market Design and Optimization

Negin Golrezaei (MIT)

10:30 – 11 a.m.

Discussion

11 – 11:30 a.m.

Break

11:30 a.m. – 12 p.m.

Country-Scale Bandit Implementation for Targeted COVID-19 Testing

Hamsa Bastani (Wharton School of the University of Pennsylvania)

12 – 12:30 p.m.

Multi-Player Multi-Armed Bandit: Can We Still Collaborate at Homes Without "Zoom"?

Yuanzhi Li (Carnegie Mellon University)

12:30 – 1 p.m.

Multiplayer Bandit Learning - From Competition to Cooperation

Simina Branzei (Purdue University)

1 – 1:30 p.m.

Discussion

9 – 9:30 a.m.

Representation Learning and Exploration in Reinforcement Learning

Akshay Krishnamurthy (Microsoft Research)

9:30 – 10 a.m.

Corruption Robust Exploration in Episodic Reinforcement Learning

Aleksandrs Slivkins (Microsoft Research NYC)

10 – 10:30 a.m.

On the Global Convergence and Approximation Benefits of Policy Gradient Methods

Daniel Russo (Columbia University)

10:30 – 11 a.m.

Discussion

11 – 11:30 a.m.

Break

11:30 a.m. – 12 p.m.

An Alternative Softmax Operator for Reinforcement Learning

Michael Littman (Brown University)

12 – 12:30 p.m.

What Are the Statistical Limits of Offline Reinforcement Learning With Function Approximation?

Sham Kakade (University of Washington & Microsoft Research)

12:30 – 1 p.m.

Discussion