【机器学习理论】深度学习基本概念

深度学习基础介绍

机器学习就是找到一个人类写不出来的函数。例如语音识别的输入是一段波形，输出是一段文字；图像识别的输入是一张图片，输出是一段文字；阿尔法狗的输入是棋盘上的黑子白子位置，输出是下一步下在哪个位置。

而深度学习是机器学习中的一个领域。机器学习的目的是找到一个人类写不出的函数，深度学习就是用类神经元来构造这个函数

深度学习的分类

深度学习的输入可以分为很多类，比如向量（vector），矩阵（Matrix），序列（sequence），输出也可以分为很多类，比如数值（scalar），类别（classification），甚至直接输出一段文本或者图片。

输入图片时一般转换为矩阵，输入语音、文本时一般转换为序列；输出为数值时称为回归，输出类别时称为分类，输出文本图片时称为生成结构化数据。

机器学习的步骤

以预测某个博主的每天视频流量为例子：

第一步：根据猜测先写出一个函数

先猜测当日的流量是不是和和前一天的流量有关，于是猜测函数关系为y = b + wx，其中y是预测值，w是权重，b是偏差，x是前一天的流量。

第二步：构造自己的损失函数L（b，w）

假设b=500，w=1则按照已有的数据列出预测值和真实值之间的差距。

然后把数据集全部的偏差值取平均，就是Loss

当然，损失函数也不一定必须用差值，用差值的平方也是可以的，这种还可以放大差值大于1的部分。所以损失函数的选择要具体情况具体分析。

那么，怎么判断一个Loss的好坏呢，上面举的例子是b=500，w=1的情况，实际上机器学习会把所有的b和w的取值列举出来并计算Loss，这种表现Loss的等高线图叫做error surface，如下图，越靠近灰色代表预测越精准。

第三步：优化

优化的目的是找到最优的w和b，使得Loss最小，即：

这就需要梯度下降（gradient descent），为了解释梯度下降，我们先从一个变量讲起。若只有一个变量w，则可以画出Loss曲线，例如下图：

η梯度下降的步骤为：先随机定一个w0，再计算该点的微分，从图上理解为该点的斜率，如果斜率为正则向左移动，反之向右移动，可以形象的理解为向局部最低处走。

那么走的幅度多大呢，取决于两方面。一是微分的大小，也就是越陡走的幅度越大；二是学习率，用η表示。学习率是自己设置的，这种由自己设定的参数称为超参数，显然，Loss不是超参数。

于是，第一次的优化过程为：

如此循环往复，什么时候停止呢？一种情况是你设定迭代步数，例如我提前设置迭代一万步就停止。另一种是迭代到了局部最优处，这种情况再继续迭代将不会更新w值。

此时明显有个问题，那就是局部最优解明显不是全局最优解。但是实际情况下局部最优解通常就是全局最优解，难点并不在这里，这个后面再说。

那么引申到两个变量也是一样的，先随机选一个w0和b0，然后分别对二者求偏导，开始迭代。最后在二维等高线Loss图中的表现为：

根据训练后的结果进行调参

以上三步称为机器学习中的训练（train），第一次训练后的预测值与实际值的情况如右图：

从图中可以看出流量具有周期性，因此可以推测不仅和前一天的流量有关，可能和前七天的流量有关，于是可以调整第一步的函数构造重新进行训练，再看效果。依次用前七天，前28天，前54天进行训练，得到的效果如下：

可以看出超过28天后，继续提升天数的预测效果并没有更好。

模型误差以及优化

上面的例子存在一个问题，那就是我们模型假定的是y = b +kx，这是一条直线，但现实的情况可能是折线，这就需要用更复杂的函数构造出折线。

任何一条折线都可以分解成一个常数和若干个标准折线的叠加。例如下图，红色的折线可以视为所有蓝色线的叠加。

曲线可以近似的用折线表示，而折线又能用常数+若干标准折线表示，意味着只要有足够多的蓝线，就能表示任意一条曲线

那么标准折线怎么用函数来表示呢？我们可以用曲线的函数来逼近折线

其中，改变w会改变斜率，改变b会左右移动，改变c能不改变形状改变高度

现在回到开始的那个红线，可以如下表示

到这里，我们可以对预测流量的构造函数这一步进行优化，并且引入前七天流量相关，让函数的表达能力更强

于是，我们将机器学习三步走的第一步由y=kx+b改为这种更复杂的形式。（图中用的线性代数的表达方式，和上面这个函数是一样的）

θ第二步也是一样的，带入参数计算出预测值和真实值之间的差距，作为Loss函数

第三步，随机选一个初始点，对所有参数做偏导，偏导集合称为梯度（grandient），一般把求偏导的过程，也就是求梯度的过程写成∇符号。之后进行梯度下降。（图中的θ为参数合集，例如w、b这些）

需要补充的是，机器学习一般不会一口气把所有的数据集N扔进去训练，而是会分成一个个batch（随机分的），然后对每个batch进行梯度下降，最后把所有batch的梯度下降都看完了才算完成一轮训练。其中，一个batch的更新称为update，全部batch都更新完了才称为一个epoch。

补充

在上面讲到，我们采用若干条标准曲线来构造函数，但并不一定非要用曲线表示，也有折线的专门表达函数

y = c max（0，kx+b），用曲线的表达称为sigmoid，用折线的表达称为relu，二者都为激活函数（activation function）

拿sigmoid举例子，假设我们现在有了很多不同的标准曲线（sigmoid），一种增加函数表达能力的方法是让更多不同的标准曲线叠加，这种称为向宽（fat）的方向改进；还有一种是增加函数表达能力的方法是在一个sigmoid后，把这个sigmoid结果当做下一个sigmoid的x继续迭代，这种称为向深度（deep）的方向改进，每一次迭代称为一次layer。但过度layer会使得模型过拟合。具体是fat更好还是deep更好，在后面的章节会说。