V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control | Deep Learning JP

V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

Friday September 4th, 2020 admin dls-2020,

%d bloggers like this: