什么是梯度下降 |
您所在的位置:网站首页 › 什么是下降梯度 › 什么是梯度下降 |
何为梯度下降?
小概念 模型:调整参数后的程序。 监督学习:输入的数据有标签。 非监督学习:输入的数据没有标签。 监督学习常见的就是回归、分类 回归:通过已有的数据来预测新的数据,输出一个数值。 分类:希望有一条线将数据分割成不同的类别。输出一个预测的类别。 无论是回归,还是分类,我们目的都是让搭建好的模型尽可能的模拟已有的数据。 机器学习任务:回归、分类、结构学习 决定模型能否模拟成功的关键有两点,分别是参数和模型的结构。 模型中的参数成千上万,需要机器自己去寻找,这个寻找合适参数的过程就称为学习或者训练。 我们通常会使用一个工具来帮助调整模型参数,这个工具就是损失函数。 那什么是损失函数? 损失函数的定义:衡量模型模型预测的好坏。 损失函数就是用来表现预测与实际数据的差距程度,即误差。通常来讲,损失越大、模型效果越差,损失越小、模型效果越好 如何去让误差更小呢 ? 真实的损失函数像是一个崎岖不平的山丘,找到最低点不容易,所以可以利用梯度,即梯度下降(一种优化算法–深度学习训练方法)何为梯度下降? 梯度下降的定义:随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。 总结:梯度下降用来做什么? 在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法。 梯度下降根据处理的训练数据不同,共有三种方式。 ①批量梯度下降BGD ②小批量梯度下降MBGD ③随机梯度下降SGD 通俗易懂的解释一下这几个之间的区别!!! 梯度下降可以称之为---盲人下山法 ①批量梯度下降BGD---拐杖周围挨着敲一圈,找个最陡的坡下山 ②小批量梯度下降MBGD---拐杖周围随便敲几下,从里面找出最陡的坡下 ③随机梯度下降SGD---朝着拐杖第一下随便敲的坡下山。梯度算法的优缺点 优点:在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,可以在很多大规模数据集上应用 缺点:求解的是局部最优值,即由于方向选择的问题,得到的结果不一定是全局最优。 步长选择方面,过小使得函数收敛速度慢,过大又容易找不到最优解。 那什么是步长?即所谓的学习率:控制模型的学习进度 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |