昨天实验室组会，小伙伴分享了高斯过程回归，所以赶紧我也总结一波

1. Linear Regression

线性回归问题是机器学习中最为基础的一个回归模型。线性回归使用了square loss，旨在使用一个线性函数$f(X)=X\beta$来拟合当前数据。为了简单方便，这里不考虑kernel extension的情况。其优化目标$L(Y,f(X))$和solution可以写作下式。这里假设solution $\beta$中的$X^TX$是可逆的（否则可以考虑GD的方式求解，或者做特征选择，做降维，或者考虑加入L2范数，以去掉trivial solution）。这里的$\widehat{Y}=X\beta$是响应变量$Y$在数据$X$的feature列空间下的正交投影。

\[L(Y, f(X))=(Y-X\beta)^T(Y-X\beta) \\ \beta=(X^TX)^{-1}X^TY\]

2. Bayesian Linear Regression

在前文中，线性回归主要是从优化损失函数的方式出发的。针对数据和模型，最优化的方式融合两者，旨在拿捏问题本身的一个度，而Bayesian Machine Learning则从概率的角度刻画了问题的不确定性，给出概率的解释。Bayesian ML处理问题不外乎是先验，似然，后验和推断四个方面。对于线性回归问题来说，假设数据由$y=f(x)+\varepsilon=XW+\varepsilon$方式生成，其中$\varepsilon$是高斯噪声，$\varepsilon \sim N(0, \sigma I)$。通常来说，模型参数的先验使用高斯，那么我们可以得到$y$的分布

\[W \sim N(\mu, \Sigma)\\ f \sim N(X\mu, X\sigma X^T) \\ y \sim N(X\mu, X\Sigma X^T+\sigma^2I)\]

根据高斯分布的性质，可以得到参数和响应变量的联合分布。

\[P(W,y \mid X,\mu.\sigma^2,\Sigma)=N \left(\begin{bmatrix} \mu \\ X\mu \end{bmatrix},\begin{bmatrix} \Sigma & (X\Sigma)^T\\ X\Sigma & X\Sigma X^T + \sigma^2I \end{bmatrix} \right) \\ cov(y,W)=cov(XW+\varepsilon, W) = cov(XW,W)=X\Sigma\]

那么，我们也可以得到参数的后验分布

\[P(W\mid X,y, \mu, \Sigma,\sigma^2)=N(\mu_W,\Sigma_W)\\ \mu_W=\mu + \Sigma X^T (X \Sigma X^T+\sigma^2I)^{-1}(y-X\mu)\\ \Sigma_W=\Sigma-\Sigma X^T(X\Sigma X^T + \sigma^2I)^{-1} X \Sigma\]

一般来说，对于test data $X^0 $，我们可以采用点估计的方式，比如$W=\mu_{W}$，进行预测$f(X^0 )=X^0 \mu_{W}$。当参数的先验分布服从$N(0,s^2I)$的时候，这里后验对应的结果就等价于ridge regression 。对于预测来说，另一种方式是采用Predictive distribution，这种预测方式就约等于是把参数空间里的所有取值都取了个边，然后结合模型预测值做了一个加权平均。给定test data $X^0 $，他的predictive distribution表示为

\[P(y^0 |X,y,X^0 ,\mu,\Sigma,\sigma^2)\\ =\int P(y^0 \mid W, X^0 , \sigma^2)P(W \mid X,y,\mu,\Sigma,\sigma^2)dW\\ =N(X^0 \mu_W,X^0 \Sigma_W (X^0 )^T+\sigma^2I)\]

幸运的是，对于高斯分布来说，他的predictive distribution也是一个高斯。有趣的是，对于这个问题，点估计的结果和predictive distribution的预测结果都是一样的，但是predictive distribution还可以给出预测的方差，作为预测结果的置信度，这一方面是点估计做不到的。

3. Gaussian Process Regression

GPR可以算作是比贝叶斯线性回归更加general的一个模型。GPR是说，与其想参数$W$的先验，不如就直接想回归函数的先验分布。所以GPR的先验不是定义在参数上，而是模型本身。那么为啥不直接考虑参数$W$的先验呢？原因是我们模型$f$是潜在的无穷维度的，而以前的方式在有限维度上work。所以大牛们说：The Gaussian process is a natural generalization of the multivariate Gaussian distribution to potentially infinite settings

对于GP的正式定义，这里就不写（抄）了。简单来说，GP可以由mean function $\mu(X)$和covariance function（或者叫kernel） $K(X,X)$唯一确定。可以写成：

$P(f\mid X)=N(\mu(X),K(X,X))$ 其中，

mean function度量了函数的central tendency，一般来说是一个常数，比如0。当然也可以用其他函数，考虑到会引入额外参数，一般0是比较常用的选择
kernel表达了我们希望function具有的性质和形状，比如常用的高斯径向基核函数就想要靠的近的点有相似的函数值

下图是一个GP的采样例子，横轴是x，纵轴是取值。给定一个$x_{1}$，它对应的mean function和kernel都唯一确定，那么这个点处的分布也确定，那么就可以根据这个分布采样了，然后对于下一个数据$x_{2}$，我们需要在已知$x_{1}$的时候，计算条件分布，然后采样，依次类推。这个过程其实就是在预测数据

那么GPR是怎么预测数据的呢？这个过程和之前的Bayesian Linear Regression类似，是从联合概率推后验概率。给定已有的训练数据$X$，回归值$f$ 和test data $X^0 $，我们要求预测值$f^0 =f(X^0 )$。那么联合概率可以表示为：

\[P(f,f^0 )=N \left(\begin{bmatrix} \mu(X) \\ X\mu(X^0 ) \end{bmatrix},\begin{bmatrix} K(X,X) & K(X,X^0 )\\ K(X^0 ,X) & K(X^0 ,X^0 ) \end{bmatrix} \right)\]

那么，进一步得到条件概率的形式。需要一说的是，GPR也是可以考虑noise的情况的，这里没有再做推导，具体方法可以参考Bayesian Linear Regression。（下面的公式中的$K^{-1}=K(X, X)^{-1}$，或者考虑有高斯noise，$K^{-1}=(K(X, X)+\sigma^2I)^{-1}$）。这个解的形式，和之前的Bayesian Ridge Regression的形式是很相似的，实际上，当mean function等于0，kernel取值$K=XX^T$的时候，两个模型是等价的

\[P(f^0 \mid X^0 , X,f)=N(\mu_{0}(X^0 ),K_{0}(X^0 ,X^0 ))\\ \mu_{0}(X^0 )=\mu(X^0 )+K(X^0 ,X)K^{-1}(f-\mu(X))\\ K_{0}(X^0 ,X^0 )=K(X,X^0 )-K(X^0 ,X)K^{-1}K(X,X^0 )\]

事实上，对于GP来说，他的后验均值可以看做是weighted combination of kernel function ，这里的weight $\alpha_{i}=K(X,X)^{-1}(f(X_{i}-\mu(X_{i})))$

\[\mu_{0}(X^0 )=\mu(X^0 )+K(X^0 ,X)K^{-1}(f-\mu(X))\\ =\mu(X^0 ) + \sum^N_{i=1} \alpha_iK(X_i,X^0 )\]

有了条件分布的形式，那么就可以给出采样，或者说预测的图

注意到图里有阴影部分，这个是表示预测的方差（置信度）。对于存在数据的地方，预测方差很小，否则不确定性越大。这里也是GPR有一个优于贝叶斯线性回归的地方，GPR的后验分布直接能给出预测方差，而不需要借助predictive distribution遍历参数空间做一个加权和。当然GPR的求解会涉及到（增量式）矩阵求逆，这个操作是很耗时的，是GPR的一个大bug。

4. Hyper-parameters of GPR

GP的kernel选择有很多，可以是周期性的，也可以是非周期性的。但是核都是有参数的。所以对于GPR来说，参数来自于kernel和mean function。一般考虑mean function=0，那么模型参数来自于kernel function，比如length scale, the output scale, and the noise variance，现在把参数统记为$\theta$。为了要学习超参，需要使用marginal likelihood，他是用来度量在给定先验的情况下，拟合数据的好坏层度。

\[P(y\mid X,\theta)=\int P(y\mid f)P(f\mid X, \theta)df\]

积分式子里的第一项是iid的noise term（这里假设$y=f(X)+noise$），第二项是一个GP先验。marginal likelihood针对未知的GPR输出值$f$做了一个marginalization。在给定参数$\theta$下，模型的先验分布就确定了，marginal likelihood从而衡量了给定超参时，整个先验空间对数据的拟合能力。前文说过，这样两个高斯相乘之后的积分仍然是高斯的：

\[P(y\mid X,\theta)=N(\mu(X;\theta),K(X,X;\theta)+\sigma^2I)\]

一般来说，会使用$log P(y\mid X,\theta)$来作为一个超参好坏的度量。令$V=K(X,X;\theta)+\sigma^2I$

\[log P(y \mid X, \theta)=-\frac{(y-\mu)^TV^{-1}(y-\mu)}{2}-\frac{log\mbox{ } detV}{2} -\frac{Nlog2\pi}{2}\]

其中，

第一项代表了data fitness。是在V度量下的距离度量（均值和真实值y），所有距离越小越好，然后还有个负号，所以越大越好
第二项是Occam’s razor，有负号，所以也是越大越好。等价于det V越小越好，由于噪声的方差实际中没法控制，所以，考虑gp的方差越小越好，模型变化范围小，能表达数据的能力小，模型趋于简单。
最后当然是数据越多越好了

总的来说，log marginal likelihood越大越好。下面的两个图，是在kernel为$K=\lambda^2exp(\frac{\mid \mid x-x’ \mid \mid^2}{2l^2})$的时候，模型在不同超参下的，marginal likelihood的大小。

Gaussian Process Regression

From Bayesian Linear Regression to Gaussian Process

1. Linear Regression

2. Bayesian Linear Regression

3. Gaussian Process Regression

4. Hyper-parameters of GPR

CATALOG

FEATURED TAGS

FRIENDS