机器学习的问题中,线性回归问题是一个特殊的情况,线性回归可以直接求解,但是其他问题不行!
批量梯度下降非常耗时!(因为要计算大量样本的梯度!!!!)
我们从样本中随机选取一个,算梯度下降不就可以节约很多时间!!!
这是个一个不错的idea,这个叫做随机梯度下降——SGD
随机梯度下降虽然节约时间,但是结果并不好。结果不一定朝着收敛的方向。就像上图一样,结果是浮动的!!!
GD结果虽然好,但是太耗时!!!
SGD虽然节约时间,但是结果不理想!!!
那怎么办呀?
小批量梯度下降,应运而生!!!
batch设置的大的话,结果越精准,但是耗时大!
batch设置的小的话,计算速度快,但是结果不是很准确!
那我们如何权衡呢?
在咋们机器性能能接受的范围内,尽可能设置的大一些!!!
batch大的话,吃显存!!
LR一般自己设置为0.01或者0.001这些比较小的数值!!!
学习率设置的小,一次更新的小。学习率设置的大,一次更新的大。
在机器学习中,基本不可能直接求解,而是通过优化求解的。
因篇幅问题不能全部显示,请点此查看更多更全内容