2.6再探宝可梦、数码宝贝分类器-浅谈机器学习原理

status

type

date

slug

summary

为什么参数越多越容易overfitting？

1:41

宝可梦和数码宝贝分类器

定义含有未知参数的函数（基于domain knowledge）

5:04

可以看出宝可梦和数码宝贝的画风完全不一样，因此我们使用边缘检测（edge detection）来绘制出两种类型的线条以此定义宝可梦与数码宝贝之间的差异。

可以看出数码宝贝的线条要比宝可梦复杂的多，因此我们将图中的白色像素点的多少定义为区分宝可梦和数码宝贝的指标。

现在我们可以根据线条的复杂度来定义函数了，e为计算边缘检测图中的白色像素点数目的函数，是未知参数，是数码宝贝和宝可梦的分界点;是所有候选的集合，称为模型的复杂度（complexity）。

定义Loss（基于训练资料）

12:34

给机器一个dataset，包含input_feature和label

根据dataset和定义Loss：

上述的这种Loss称为Error rate，与MSE，Cross-entropy不同，这种Loss很难做Gradient。

找出函数（optimization）

17:34

现在我们先假设个理想情况，我们有全部的宝可梦和数码宝贝的dataset ，并且我们可以找到能使Loss最小的那个。公式表示为：

因为我们现在定义的loss无法微分，所以我们只能将内的参数全部代入计算Loss，如果是一个DNN问题，我们需要考虑能用Gradient Descent的Loss。

但实际上我们收集到的dataset 是从采样出来的，而这个采样过程有一定的限制叫做i.i.d(independently and identically distribute)，即每次采样都是相互独立的，而每次采样的分布都是相同的。

同样的对于训练过程的我们也有：

我们现在希望和尽可能的接近，也就是让在上取得尽可能接近与接近。

现在我们将所有已知的宝可梦和数码宝贝的设为（实则为，因为还有未知的宝可梦），然后从这个人为设定的中采样出，计算结果如上图。居然比还小，这是因为只有在这个dataset上才能取得最小的Loss。而将用在上也能取得相近的Loss。

我们现在采样出另一组的，可以很明显的发现，这组Dataset采样的不是很好，Train集和All差距过大。事实也确实如此，在上的Loss相当大。

这也就意味着，每一次我们Train的模型可能会因为采样的问题而影响到Loss。

前面提到我们想要让和尽可能的接近，也就是上图的第一个式子。而这个式子可由第二个式子推导出来，整理出来可得下式子：

其中，上式表明我们需要采样一个好的，有任意的能使和之间的差距小于，才能让理想跟现实接近。

那么我们怎么知道采样出好的的概率是多少呢？

sample出坏的的概率是多少

42:25

关于接下来的讨论的几点声明：

以下讨论与模型无关

以下讨论与数据分布的假设无关

以下讨论与Loss函数种类无关，也就是说不管是回归问题还是分类问题都可以使用（因为回归问题和分类问题只是Loss函数的区别，回归常用MSE，分类常用cross-entropy）

对于坏的，我们可以定义为：

上式表明，至少有一个，会让之间的差距大于。而所有的这种能让变坏的的并集就是

记住上图中的公式，要注意:

Loss函数的范围要在为0，1

N是里训练资料的数目

是自己设定的hyperparameter

那么怎么让采样到坏的的概率变小呢？

采用大的和小的，大的也就是训练资料越多，小的意味着能够选择的越少，所以这两个操作都能让你采样到坏的的概率变低，如下图所示。

但在实际使用过程中，我们的的数值通常很大，得到的通常都如上图的第一种情况一样，远大于1。

那么我们可以反过来想，我们设定一个概率，我们要达到这个概率需要多少的训练资料？

如上图将公式进行变换得到：

其中都是我们人为指定的。

这条公式要比一开始的那条实用的多，因为它可以直接指导我们调参数。

模型复杂度

1:04:47

但这一条公式也不是一无是处。虽然咋一看当取值很大时，这个公式一点用都没有。但世上没有真正的无穷，即使取值连续，但在计算机面前依然可以计算，甚至有专门来描述它的离散程度的VC-dimension。

在实际应用过程中，并不容易收集，而且训练资料的增加意味着成本的增加。那么相对来说的调整就比较可行吗？

很遗憾也不是的。

因为随着的减少，变小，这意味可以选择的函数很有限，可能无法找到真正能在上最小的那个，此时即使我们的和之间很相近，如下图所示，但也不能得到最佳的Loss。

一方面大的可以让函数更容易包含真正好的，但也更容易找出差的，另一方面小的可以更容易的令和之间的差距更小（理想和现实更接近），但也更容易找不出真正好的。

那有什么办法可以兼顾大的，和小的的优点呢？这个方法就是DNN。