When gradient is small Critical Point Training Fails because 现在我们要讲的是Optimization的部分,所以我们要讲的东西基本上跟Overfitting没有什麼太大的关联,我们只讨论Optimization的时候,怎麼把gradient descent做得更好,那為什麼Optimization会失败呢? 你常常在做Optimization的时候,你会发现,随著你的参数不断的update,你的training的loss不会再