Tweeted By @ogrisel

on 2018-10-07 (UTC)
research

Gradient Descent Provably Optimizes Over-parameterized (single hidden layer relu) Neural Networks (trained with l2 loss assuming random init and non degenerate data): https://t.co/NUt74aCUf6
— Olivier Grisel (@ogrisel) October 7, 2018

Tweeted By @ogrisel

Tags