搜索
您的当前位置:首页正文

机器学习总结(三)——梯度下降详解

来源:独旅网

梯度下降通俗解释

机器学习的问题中,线性回归问题是一个特殊的情况,线性回归可以直接求解,但是其他问题不行!

举一个通俗的例子

步长应该小一些!!!

参数更新方法

优化参数设置

批量梯度下降(GD)


批量梯度下降非常耗时!(因为要计算大量样本的梯度!!!!)
我们从样本中随机选取一个,算梯度下降不就可以节约很多时间!!!
这是个一个不错的idea,这个叫做随机梯度下降——SGD

随机梯度下降(SGD)


随机梯度下降虽然节约时间,但是结果并不好。结果不一定朝着收敛的方向。就像上图一样,结果是浮动的!!!

GD结果虽然好,但是太耗时!!!
SGD虽然节约时间,但是结果不理想!!!

那怎么办呀?

我们可以结合一下这两种方法!!!

小批量梯度下降,应运而生!!!

小批量梯度下降



batch设置的大的话,结果越精准,但是耗时大!
batch设置的小的话,计算速度快,但是结果不是很准确!
那我们如何权衡呢?
在咋们机器性能能接受的范围内,尽可能设置的大一些!!!

batch大的话,吃显存!!

学习率(步长)


LR一般自己设置为0.01或者0.001这些比较小的数值!!!

学习率设置的小,一次更新的小。学习率设置的大,一次更新的大。

附录

在机器学习中,基本不可能直接求解,而是通过优化求解的。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top