Intro
人类最伟大的成就之一就是发明了集合(set)和映射(mapping)这两个概念。他们的抽象性使得自然界的所有存在都可以被这两个概念描述。比如分类就是图片集合到类别集合的映射,图片生成就是文字集合到图片集合的映射,信源编码就是字符集合到codewords集合的映射,等等。要注意这里的集合都是非常大的!比如图片集合是所有图片,不同大小,黑白的、彩色的等等等等,我们姑且称这种集合为“大集合”吧。比如 $\mathbb{R}$ 到 $\mathbb{R}$ 上所有函数构成的集合(denoted $\mathbb{R}^{\mathbb{R}}$),这也是“大集合”,这种集合在实践中很难把握和分析。
说回映射,他们往往都是在人脑中发生的,比如我们看到一张图片,立即认为这是这是一条狗而不是其他的东西,即把图片映成拉狗这个对象,但这个映射写不出表达式!
或者说,可以?!如果我们粗略地写出了某种表达式,且图片通过这个表达式输出的结果和人脑中输出的结果很像,那是不是可以说我们找到了这种映射的显式表达?
这正是机器学习干的事情,我们尝试找到一种映射,定义域是所有图片的集合(for example),值域是物品字符串的集合。如果我们把所有图片到物品字符串的映射也都收集在一起构成一个“大集合”(或称为大函数空间),其实我们要找的就是这个大函数空间中的一个元素!注意是元素,这个元素就是我们脑中的那个映射。
但是怎么找呢?首先这个映射都没有一个固定的形式,比如它可以是 $y=ax^2$,也可以是 $y = \sin(ax)+bx+cx^2+d\log(x)$ 等等所有这样的表达式 (这里简单起见就用一维变量的来说明)。如果我们仅仅把问题就局限在某种特定的函数形式上,这个过程就叫参数化(parametrization),这里的 $a, b, c, d$ 就叫做参数(parameters)。某一种特定的参数化,远远不能涵盖大函数空间中的所有元素!
但是有一种参数化形式,它几乎能涵盖整个函数空间!!也就是说,我们只需要考虑这一种形式的函数,就几乎相当于考虑了函数空间的所有函数!这怎么可能呢?当然上面举例的两种参数化显然是不行的,你能想出什么样的映射形式能够“逼近”大函数空间中的任何映射?
Universal approximation theorem
这种参数化长这样:
$$
y = \sum_{i=1}^m c_i , \sigma(w_i \cdot x + b_i)
$$
其中 $\sigma(.)$ 是一种给定的具体的非线性函数,$w_i$, $b_i$, $c_i$都是参数。$x$ 是哪个集合里面的?我知道你很急,但你先别急,总之你看到了一种特殊的参数化形式,现在我跟你说它能拟合任意的函数!
如果只有三个参数的话,提供的自由度只有三个,肯定不行。所以它们其实是很多很多(但有限个)参数,只是分成了三类。如果能将这种参数话形式可视化出来就好了,有什么方法呢?
这种形式的函数都可以表示成这个样子:
称为(全连接的)“神经网络”。
神经网络可以拟合任意函数。
这个结论使得机器学习得以安稳地存在,因为我们知道理论上,只要网络足够复杂,就可以拟合出任意的映射(而不会忙活半天最终证明压根拟合不了!)