3.3 鱼与熊掌可以兼得的深度学习

status

type

date

slug

summary

在2.6节中，我们提到了大的和小的各自的优点，一方面大的可以让函数更容易包含真正好的，但也更容易找出差的；另一方面小的可以更容易的令和之间的差距更小（理想和现实更接近），但也更容易找不出真正好的。

我们现在想要找出一个方法，让鱼与熊掌可以兼得，具体来说就是让尽可能的小，但里面的都要是最好的，以确保尽可能的小。而这个方法就是深度学习。

现在让我们来复习一下：为什么我们需要深度学习？

在1.3中我们简单介绍了，Piecewise Linear——分段线性曲线，我们只需要一个 hidden layer 的 neuron network，就可以轻易的制造出分段线性曲线。

分段线性曲线由一个常数项加上多条山坡型的函数就可以组成，而这个山坡型的函数就叫做sigmoid函数

6:42 通过调整权重和 bias ，在通过神经元（Sigmoid函数），制造出不同的山坡型函数，再加起来加上常数项后可以得到任何的分段线性曲线。

另一种方法是通过ReLU函数

现在我们可以收回在 1.3 节最后提出的问题的答案了，即，理论上我们只需要一个足够长的隐藏层就能获得任意我们想要的分段线性曲线，那我们为什么还要深度学习呢？

深度学习本质上是大模型，大数据量，对隐藏层叠层的做法本质上是让模型包含的数据量更多，从而更有可能找到对的，所以没有大资料，我们不适合用深度学习。

15:19 但并不是深度学习就叫大模型了，“矮胖”（隐藏层神经元数量更多）的模型同样也可以是大模型，所以我们要进行如下对比。

可以看出，同样参数量下，横向发展并不能显著提高模型的错误率，证明deep的力量是比fat要强的。

在预测同一个函数时，深度学习需要的参数量更少，这表明深度学习更不容易过拟合，以及需要的训练资料更少。这是深度学习的真正强项。

那么为什么深度会比广度优势要大这么多呢。

25:55 当一个只有一层的神经网络，采用深度学习时，通过两个ReLU函数后，取值如下图所示，即对于上面的神经元，当>0.5 时，取0-1， <0.5 时，取0；对于下面的神经元则刚好相反，因此整个神经网络的结果是一个”<”形状。

现在我们再加一层神经元，通过同样的和以及ReLU，和x的关系如右下角的图，有个线段

我们继续叠层，和的关系如下，有个线段。

那么现在我们可以得出结论了，采用深度学习，我们在获得右边这种含有个线段的函数只需要个隐藏层，以及个神经元；而如果我们用浅的结构，要获得同样的函数，我们就需要，个神经元。也就是说深度学习的数据集是一个小的数据集，并不是大多数人认为的大数据集，大模型。

💡

由上面这个例子我们可以看出，如果我们需要找到的函数是一个复杂的，有规律的函数，那么采用深度学习是一个非常好的方法。比如语音识别，图像识别这种问题，这也是为什么这两个领域的深度学习效果非常好的原因，